هوش مصنوعی چطور عکاسی را تغییر داده است؟
به گزارش یادداشت سریع، اگر می خواهید بدانید که چقدر دوربین گوشی بعدی شما خوب خواهد بود، باید به دقت گوش بدهید ببینید شرکت سازنده آن، چه چیزی درباره هوش مصنوعی می گوید. جدا از سر و صدای اغراق آمیز و زیادی که درباره هوش مصنوعی شنیده می گردد، این تکنولوژی در نهایت توانسته در یکی دو سال اخیر، عکاسی در موبایل ها را تا حد زیادی بهبود ببخشد. اگر فکر می کنید ترکیب هوش مصنوعی و دوربین موبایل ها یک ترند زودگذر است و به زودی فراموش می گردد، بگذارید بگوییم که حالا حالاها باید شاهد پیشرفت ترکیب این دو باشیم.

البته که هنوز موارد اضافی و بدون استفاده زیادی در این زمینه وجود دارد. اما پیشرفت های اخیر در دوربین موبایل ها بیش از آن که به لنز و سنسور مربوط باشد، به چیپست پردازش تصاویر و همچنین نرم افزار دوربین ها مربوط بوده است. بخش زیادی از این پیشرفت را هم مدیون هوش مصنوعی یا همان AI هستیم که به دوربین این امکان را می دهد که صحنه در حال شکار را بهتر بشناسد.
اپلیکیشن گوگل فوتوز که در سال 2015 منتشر شد، به خوبی نشان داد که چقدر ترکیب هوش مصنوعی و عکاسی، می تواند قدرتمند و در عین حال کاربردی باشد. قبل از دوران گوگل فوتوز، این غول دنیای جست وجو، یادگیری ماشینی در شبکه اجتماعی گوگل پلاس استفاده می کرد تا بتواند ویژگی تشخیص چهره در عکس ها را بخبود ببخشد. سپس با انتشار اپلیکیشن گوگل فوتوز، گوگل توانست با یاری فناوری تشخیص چهره بر پایه AI، امکان جست وجو بین عکس های گالری را برای کاربران به ارمغان آورد. هزاران عکسی که نه تگ داشتند و نه مرتب شده بودند، یک شبه قابل جست وجو شدند که امکانی فوق العاده بود.
و حالا این تکنولوژی آنقدر پیشرفت نموده که فناوری تشخیص چهره گوگل، می تواند چهره گربه شما را هم تشخیص بدهد.
پیشرفت های گوگل در این زمینه، از سال 2013 شروع شد. در این سال، گوگل شرکت DNNresearch که یک شبکه عصبی عمیق آموزش داده شده توسط انسان را ساخته بود، خریداری کرد. به تکنولوژی توسعه داده توسط این شرکت، به طور خلاصه یادگیری تحت نظارت می گویند. یادگیری تحت نظارت شامل شبکه ای از میلیون ها تصویر می شود که در آن سیستم به دنبال سرنخ های بصری در سطح پیکسل ها می شود تا بتواند هر عکس را در دسته بندی خودش، جای بدهد. به مرور زمان، الگوریتم این تکنولوژی بهتر شده و پیشرفت می نماید و مثلا می تواند یک پاندا را تشخیص دهد؛ چراکه در گذشته تصاویر زیادی از پاندا دریافت و شناسایی نموده و حالا مسئله ای در شناسایی یک پاندای جدید، ندارد. سیستم برای تشخیص پاندا، یادگرفته که کجا پوست خز مشکی و کجا پوست خز سفید پاندا قرار می گیرد و ارتباط بین دو بخش سیاه و سفید پاندا را از ارتباط بین بخش های سیاه و سفید یک گاو نژاد هلشتاین، تشخیص می دهد. با تمرین دادن بیشتر این سیستم، امکان جستجو برای موارد انتزاعی بیشتری مثل حیوان یا صبحانه به وجود آمده که ممکن است شاخص های بصری مشترکی نداشته باشند اما همچنان برای انسان، به سرعت قابل تشخیص است.
زمان و قدرت پردازشی زیادی برای تمرین دادن و به وجود آوردن چنین الگوریتمی احتیاج است. زمانی که دیتا سنترهای بزرگ توانستند نقش خود را برای تمرین دادن این الگوریتم به خوبی ایفا نمایند، نوبت به موبایل های هوشمند می رسد تا با قدرت پردازشی کمترشان، بتوانند به گسترش این الگوریتم یاری نمایند. بخش بزرگ کار پیش از عرضه این سیستم روی موبایل ها صورت گرفته و حالا به محضی که عکس های شما در سرور های ابری گوگل آپلود شوند، گوگل می تواند از این اطلاعاتی که در اختیارش می گذارید، برای بهبود این سیستم، استفاده کند. یک سال پس از عرضه گوگل فوتوز، اپل هم یک ویژگی جدید در گالری iOS قرار داد که به کاربران اجازه می داد در عکس ها جست وجو نمایند. تکنولوژی اپل نیز مثل گوگل بر پایه شبکه عصبی ساخته شده بود.
تفاوت اپل اینجا بود که اطلاعاتی از گوشی کاربران به جایی ارسال نمی شد و فرآیندهای مربوط به دسته بندی عکس ها، روی گوشی کاربر انجام می شد. به همین دلیل، بین یک تا دو روز پس از عرضه و نصب بروزرسانی مربوط به این ویژگی، امکان استفاده از آن وجود نداشت چرا که گوشی در پس زمینه در حال دسته بندی این عکس ها با تکیه بر هوش مصنوعی خود بود.
نرم افزار مدیریت هوشمند عکس ها یک چیز است و هوش مصنوعی و یادگیری ماشینی چیز دیگر که در مرحله ثبت هر عکس به کار می آید. بله در سال های اخیر، لنز دوربین های موبایلی سریع تر شده و سنسور ها نیز هرسال کمی بزرگ تر می شوند اما می توانیم بگوییم در حال حاضر به حد فیزیکی اندازه دوربین ها رسیده ایم و اگر بخواهیم سنسورهای بزرگ تری استفاده کنیم، با گوشی هایی ضخیم تر روبرو می شویم. با این وجود، عجیب نیست اگر بعضی گوشی های بتوانند از بعضی دوربین ها، عکس های بهتری ثبت نمایند؛ حداقل قبل از ادیت تصاویر. این موضوع به این دلیل است که دوربین های حرفه ای، هنوز نمی توانند در یک ویژگی سخت افزاری، با موبایل ها رقابت نمایند و آن، چیپست پردازشی دوربین ها است. این چیپست شامل CPU، پردازشگر اختصاصی تصاویر و حالا واحد پردازش عصبی می شود.
این فزونی سخت افزاری، چیزی به اسم عکاسی محاسباتی را به موبایل اه می آورد. عکاسی محاسباتی طیف گسترده ای از افکت بوکه مصنوعی در گوشی های هوشمند گرفته تا کیفیت فوق العاده تصاویر ثبت شده توسط پیکسل 3 را شامل می شود. عکاسی محاسباتی همواره احتیاجمند هوش مصنوعی نیست اما هوش مصنوعی بخش مهمی از آن را تشکیل می دهد!
اپل از تکنولوژی عکاسی محاسباتی استفاده می نماید تا با قرار دادن دو دوربین در گوشی های خود، افکت عکاسی پرتره را برای کاربران فراهم آورد. چیپست پردازش تصاویر در آیفون از یادگیری ماشینی استفاده می نماید تا بتواند افراد را در یک دوربین شناسایی کند و سپس دوربین دوم، یک نقشه از عمق میدان می سازد. در نهایت به یاری نقشه به وجود آمده از عمق میدان و جدا کردن فرد در تصویر، پس زمینه تصاویر بلور می شود و عکس پرتره ثبت می شود. این امکان که دوربین به یاری یادگیری ماشینی بتواند افراد را تشخیص دهد، چیز جدیدی نبود که اپل در سال 2016 معرفی نموده باشد اما اینکه دوربین گوشی می توانست به صورت لحظه ای این کار را انجام دهد و تصاویر پرتره را قبل از ثبت شدن نشان دهد، اتفاقی فوق العاده بود.
گوگل با سه نسل از گوشی های پیکسل، اثبات نموده که در زمینه عکاسی محاسباتی در موبایل ها، حرف اول را می زند. گوشی های این شرکت به صورت پیش فرض، با حالت HDR+ عکاسی می نمایند. این حالت با استفاده از یک الگوریتم پیچیده، برای ثبت هر عکس، چندین عکس با اکسپوژر های مختلف را با هم ترکیب می نماید تا عکسی فوق العاده ثبت شود. آنطور که مدیر بخش عکاسی محاسباتی در گوگل، آقای Marc Levoy، به وب سایت ورج گفته است، یادگیری ماشینی یعنی سیستم مدام در حال یادگرفتن است و به مرور زمان بهتر می شود. گوگل هوش مصنوعی خود را با توجه به دیتابیس بزرگی که توانسته با اپلیکیشن گوگل فوتوز به دست بیاورد، بهتر و بهتر نموده است. سال گذشته و گوشی پیکسل 2 خیلی خوب توانست نتیجه کوشش های گوگل در این زمینه را نشان بدهد و عکس های ثبت شده با این گوشی آنقدر خوب بود که وب سایت ورج ترجیح می داد به جای استفاده از دوربین حرفه ای، گاهی اوقات از پیکسل 2 برای ثبت عکس از محصولات استفاده کند.
اما فزونی گوگل به اندازه چند ماه پیش که ویژگی Night Sight را معرفی کرد، مشهود نبود. پیکسل های جدید به این ویژگی مجهز شده اند که درواقع در شب، چند عکس با اکسپوژر های مختلف ثبت می نماید و سپس با بهره گیری از الگوریتم های یادگیری ماشینی، میزان وایت بالانس و شدت رنگ ها را مشخص می نماید و نتیجه، عکسی پر نور در شب خواهد بود. این ویژگی بهترین عملکرد خود را روی پیکسل 3 دارد چرا که برای سخت افزار این گوشی ساخته شده اما در نهایت گوگل این ویژگی را برای پیکسل های قبلی هم با یک بروزرسانی نرم افزاری، عرضه کرد. حتی نسل اول پیکسل که حتی به لرزشگیر دوربین هم مجهز نیست، می تواند با نایت سایت عکس هایی فوق العاده در شب ثبت کند که بار دیگر نقش مهم و انکار نشدنی نرم افزار در عکاسی با موبایل ها را نشان می دهد.
اما با این وجود، هنوز هم جا برای پیشرفت سخت افزاری دوربین ها وجود دارد؛ مخصوصا اگر با هوش مصنوعی نیز ترکیب شوند. بهترین نمونه از این حالت را می توانیم گوشی های آنر ویو 20 و هواوی نووا 4 بدانیم. این گوشی ها، اولین مصحولاتی هستند که به سنسور IMX586 ساخت سونی مجهز شده اند. این سنسور از دیگر رقبای خود در دنیای موبایل ها، بزرگ تر است و رزولوشن فوق العاده 48 مگاپیکسلی دارد که بیشتری رزولوشن یک دوربین در یک موبایل است. اما همزمان سنسور 48 مگاپیکسلی یعنی جای دادن پیکسل های کوچک تر در سطح سنسور که به معنی دریافت نور کمتر و در نهایت یعنی به افت کیفیت عکاسی در شب می انجامد. اما صبر کنید؛ دوربین این گوشی ها، حالت عکاسی در شب هم دارد که با تکنیک ترکیب پیکسل ها، هر چهار پیکسل مجاور را تبدیل به یک پیکسل می نماید و در نهایت عکسی 12 مگاپیکسلی ثبت می نماید که کیفیت بسیار خوبی دارد.
حالت AI Ultra Clarity در گوشی آنر ویو 20 نیز از رزولوشن 48 مگاپیکسلی دوربین ویو 20 استفاده می نماید تا عکس هایی با جزئیات بسیار بالا ثبت کند که می توان تا حد زیادی هم در این عکس ها زوم کرد.
تا همین چند وقت پیش، چیپست های پردازش تصاویر نقش عمده در عکاسی با موبایل ها داشتند اما حالا واحد پردازشی عصبی یا NPU که در پردازنده های امروزی واقع شده است، نقش اصلی را در عکاسی محاسباتی موبایل ها، ایفا می نمایند. هواوی اولین شرکتی بود که واحد پردازش عصبی را در چیپست موبایلی خود گذاشت و در گوشی های میت 10 و سری P20 شاهد آن بودیم. پس از هواوی، شرکت اپل بود که با چیپست A11 Bionic، واحد پردازش عصبی را به آیفون ها آورد. کوالکام که بزرگ ترین تامین نماینده پردازنده گوشی های اندرویدی است، تا به امروز پردازنده ای با واحد پردازش عصبی عرضه ننموده است. گوگل هم که متکی به پردازنده های کوالکام است، مجبور شده چیپست اختصاصی Pixel Visual Core را در گوشی های خود بگنجاند تا با آن بتواند عکاسی محاسباتی را به پیکسل ها بیاورد.
برای اینکه ببینید در یک سال اخیر چقدر واحد پردازش عصبی در پردازنده ها اهمیت پیدا نموده، بگذارید بگوییم که آخرین پردازنده اپل یعنی A12 Bionic، از واحد پردازش عصبی هشت هسته ای که وظایف را در Core ML انجام می دهد، تشکیل شده است. همین پردازنده در مجموع 9 برابر سریع تر از A11 می تواند پردازش های مربوط به هوش مصنوعی را انجام دهد و واحد پردازشی عصبی آن، مستقیما به چیپست پردازش تصاویر وصل شده است. از همین رو، اپل ادعا می نماید که گوشی های جدید این شرکت که A12 Bionic دارند، در عکاسی پرتره می توانند عمق میدان را بهتر بفهمند و میزان بلور شدن عمق میدان در تصاویر پرتره، طبیعی تر خواهد بود.
این نوع سخت افزار، اهمیت زیادی برای عملکرد یادگیری ماشینی روی گوشی های هوشمند دارد. نباید فراموش کنید که پیش از این، الگوریتم های گوگل فوتوز روی کامپیوترهای فوق قدرتمند با پردازشگر های گرافیکی فوق قدرتمند اجرا می شدند. حالا بخش زیادی از همان فعالیت ها، می تواند روی گوشی های هوشمند انجام شود چراکه واحد پردازش عصبی گوشی های امروزی، بسیار قدرتمندتر از آن چیزی است که تصور می کنیم.
گوگل همچنین در حال توسعه تکنولوژی است که بتواند بار پردازش تصاویر را سبک تر کند و فشار کمتری به پردازنده ها وارد شود اما در عین حال پردازنده ها نیز سریع تر می شوند و آماده برای پردازش های سنگین تر هستند. در نهایت ما هنوز در ابتدای جهت عکاسی محاسباتی قرار داریم. یادگیری ماشینی به دوربین موبایل ها جان تازه ای بخشیده و پتانسیل های زیادی در این زمینه وجود دارد. درواقع با وجود هیجانی که حول محور هوش مصنوعی و تاثیر آن در گوشی ها وجود دارد، بیش از هرچیز دیگری، در زمینه عکاسی شاهد استفاده از هوش مصنوعی و کاربردهای آن هستیم. دوربین بخش بسیار مهمی از هر گوشی به حساب می آید و هوش مصنوعی، بهترین راه چاره برای بهبود آن است.
منبع: TheVerge
منبع: دیجیکالا مگ