بینایی محیطی، یعنی چیزی که اغلب فراموش میشود، نقش مهمی در ارتباط ما با محیط پیرامونمان دارد. این نوع بینایی به ما کمک میکند تا اشیا، حرکات و نشانههای مهمی که مستقیماً در دید ما نیستند را تشخیص دهیم و درک کنیم. این به ما اجازه میدهد که دید ما را به خارج از محیط مرکزی متمرکز کنیم و به اطرافمان نیز توجه کنیم. این توانایی بسیار مهم است، چرا که در کارهای روزمره مانند رانندگی در خیابانهای شلوغ یا واکنش به حرکات ناگهانی در ورزش، نقش بسیار حیاتی دارد.
در مؤسسه فناوری ماساچوست (MIT)، محققان در حال بررسی جدیدترین روشها برای ارتقاء هوش مصنوعی هستند. آنها به دنبال ساخت مدلهای هوش مصنوعی هستند که بتوانند بینایی محیطی را به خوبی شبیهسازی کنند. این کار بر اساس یک رویکرد نوآورانه انجام میشود و هدف آن پر کردن شکاف بزرگی است که در تواناییهای فعلی هوش مصنوعی وجود دارد. زیرا هوش مصنوعی، برخلاف انسانها، قادر به ادراک محیط پیرامون خود نیست. این محدودیت در مدلهای هوش مصنوعی باعث میشود که در مواقعی که تشخیص محیطی اهمیت دارد، مانند سیستمهای رانندگی خودکار یا در محیطهای پیچیده و پویا، کارایی آنها محدود شود.
آشنایی با دید محیطی در هوش مصنوعی
در انسان، دید محیطی نشان دهنده توانایی ما در درک و تفسیر اطلاعات در حومه میدان دید مستقیم است. این نوع دید، کمتر جزئیات را نشان میدهد اما به حرکات بسیار حساس است و در هشدار دادن به خطرات و فرصتهای پتانسیل در محیط نقش مهمی دارد.
به طور مقابل، مدلهای هوش مصنوعی تاکنون به اندازه کافی به این جنبه از بینایی توجه نداشتند. سیستمهای بینایی رایانهای فعلی اصولاً برای پردازش تصاویری طراحی شدهاند که مستقیماً در محدوده دیدشان قرار دارند، مانند دید مرکزی در انسان. این یک نقطه ضعف بزرگ در درک هوش مصنوعی باقی میماند، به خصوص در مواقعی که اطلاعات جانبی برای تصمیم گیری یا واکنش به تغییرات غیرمنتظره در محیط ضروری است.
تحقیقات انجام شده توسط MIT به این نقطه حیاتی توجه دارد. هدف این تیم ایجاد سیستمهایی است که محیط را نه تنها به شکلی که انسان میبیند، بلکه به شکلی که انسان مفهوم میدهد، میبینند. این پیشرفت میتواند به افزایش کاربردهای هوش مصنوعی در زمینههای مختلف، از ایمنی خودروها تا روباتیک، کمک کند و حتی ممکن است به درک ما از پردازش بصری انسان کمک کند.
رویکرد MIT
برای رسیدن به این هدف، محققان MIT روشهای پردازش و درک تصاویر توسط هوش مصنوعی را بازنگری کردهاند و آنها را به تجربه انسانی نزدیکتر کردهاند. محور این رویکرد استفاده از مدل کاشی کاری بافت اصلاح شده است. در روشهای سنتی، معمولاً سعی شده است تا لبههای تصاویر را حذف کرده و به تقلید از دید محیطی متمرکز شود. اما محققان MIT دریافتند که این روش نقصی در نمایش دقیق اطلاعات پیچیدهای که در بینایی محیطی انسان رخ میدهد، دارد.
برای رفع این مشکل، آنها مدل کاشی کاری بافت را اصلاح کردند، که در ابتدا برای تقلید از دید محیطی انسان طراحی شده بود. این مدل اصلاحشده امکان تغییر دقیقتر تصاویر را فراهم میکند و اطلاعات دقیقتری از دست دادن جزئیاتی که هنگام حرکت نگاه از مرکز به سمت اطراف رخ میدهد، را ثبت میکند.
بخش مهمی از این تلاش ایجاد یک مجموعه داده جامع بود که به طور خاص برای آموزش مدلهای یادگیری ماشین در تشخیص و تفسیر اطلاعات بصری محیطی طراحی شده بود. این مجموعه داده از مجموعه وسیعی از تصاویر تشکیل شده است که هر کدام با دقت تغییر یافته اند تا سطوح مختلفی از وفاداری بصری محیطی را نشان دهند. با آموزش مدلهای هوش مصنوعی با این مجموعه داده، محققان قصد داشتند درک واقعیتری از تصاویر محیطی، شبیه به پردازش بصری انسان، را به آنها القا کنند.
یافته ها و مفاهیم
پس از آموزش مدلهای هوش مصنوعی با این مجموعه داده جدید، تیم MIT شروع به مقایسه دقیق عملکرد این مدلها با تواناییهای انسانی در وظایف تشخیص اشیا کرد. نتایج بسیار روشن بود. در حالی که مدلهای هوش مصنوعی توانایی بهبود یافتهای را در شناسایی و تشخیص اشیاء در حاشیه نشان دادند، عملکرد آنها هنوز به اندازه تواناییهای انسان نبود.
یکی از یافتههای بسیار مهم این بود که الگوهای عملکرد مدلهای هوش مصنوعی در این زمینه متمایز و محدودیتهای ذاتی آنها مشخص شد. بر خلاف انسانها، اندازه اشیا یا میزان پرتوندگی بصری تأثیر زیادی بر عملکرد مدلهای هوش مصنوعی نداشت، که این نشاندهنده تفاوت اساسی در نحوه پردازش اطلاعات بصری محیطی توسط هوش مصنوعی و انسان است.
این یافتهها پیامدهای مهمی برای کاربردهای مختلف دارد. در حوزه ایمنی خودرو، سیستمهای هوش مصنوعی با دید محیطی پیشرفته میتوانند با تشخیص خطرات احتمالی که خارج از دید مستقیم رانندگان یا حسگرها قرار میگیرند، تعداد تصادفات را به میزان قابل توجهی کاهش دهند. این فناوری همچنین میتواند نقش مهمی در درک رفتار انسان ایفا کند، به ویژه در نحوه پردازش و واکنش ما به محرکهای بصری در محیط پیرامون خود.
علاوه بر این، این پیشرفت نشانگر بهبود رابط کاربری است. با درک اینکه چگونه هوش مصنوعی بینایی محیطی را پردازش میکند، طراحان و مهندسان میتوانند رابطهای بصری و پاسخگوتری ایجاد کنند که با دید طبیعی انسان هماهنگتر باشند و در نتیجه سیستمهای کاربرپسندتر و کارآمدتری ایجاد کنند.
در واقع، کار محققان MIT نه تنها یک گام مهم در تکامل بینایی هوش مصنوعی است، بلکه افقهای جدیدی را برای افزایش ایمنی، درک شناخت انسان و بهبود تعامل کاربر با فناوری باز میکند.
این تحقیق با پر کردن شکاف بین ادراک انسان و ماشین، فرصتهای زیادی را در پیشرفت فناوری و ارتقای ایمنی باز میکند. پیامدهای این مطالعه در زمینههای متعددی گسترش مییابد و آیندهای را نوید میدهد که در آن هوش مصنوعی نه تنها میتواند بیشتر شبیه ما را ببیند، بلکه میتواند جهان را به شیوهای ظریفتر و پیچیدهتر درک کند و با آن تعامل داشته باشد.