یک تکنیک جدید توسعه یافته توسط محققان دانشگاه ایالتی کارولینای شمالی، توانایی برنامههای هوش مصنوعی (AI) را در شناسایی اشیاء سه بعدی بهبود میبخشد. این تکنیک با نام MonoCon، همچنین به هوش مصنوعی کمک میکند تا با استفاده از تصاویر دوبعدی، نحوه ارتباط اشیاء سه بعدی در فضا را یاد بگیرد.
MonoCon قابلیت اجرای طیف گستردهای از کاربردها را دارد، از جمله کمک به وسایل نقلیه خودران برای حرکت در اطراف دیگر وسایل نقلیه با استفاده از تصاویر 2 بعدی از دوربین داخلی. همچنین میتواند در زمینه تولید و رباتیک نقش داشته باشد.
تیانفو وو نویسنده مسئول مقاله تحقیقاتی و استادیار مهندسی برق و کامپیوتر در دانشگاه ایالتی کارولینای شمالی است.
وو میگوید: «ما در دنیای سهبعدی زندگی میکنیم، اما وقتی عکس میگیرید، آن دنیا را در یک تصویر دو بعدی ثبت میکند.
برنامههای هوش مصنوعی ورودی بصری را از دوربینها دریافت میکنند. بنابراین اگر میخواهیم هوش مصنوعی با جهان تعامل داشته باشد، باید اطمینان حاصل کنیم که میتواند آنچه را که تصاویر دوبعدی میتوانند درباره فضای سهبعدی به آن بگویند، تفسیر کند. در این تحقیق، ما بر روی یک بخش از این چالش متمرکز شدهایم: اینکه چگونه میتوانیم هوش مصنوعی اشیاء سهبعدی - مانند افراد یا ماشینها - را در تصاویر دوبعدی تشخیص دهیم و آن اشیاء را در فضا قرار دهیم.
وسایل نقلیه خودران
وسایل نقلیه خودران معمولاً برای حرکت در فضای سه بعدی به لیدار متکی هستند. لیدار، که از لیزر برای اندازهگیری فاصله استفاده میکند، گران است، به این معنی که سیستمهای خودمختار دارای افزونگی زیادی نیستند. قرار دادن دهها حسگر لیدار روی یک خودروی بدون راننده تولید انبوه بسیار گران خواهد بود.
وو میگوید: «اما اگر یک وسیله نقلیه خودمختار بتواند از ورودیهای بصری برای حرکت در فضا استفاده کند، میتوانید به صورت اضافی بسازید. از آنجایی که دوربینها بهطور قابلتوجهی ارزانتر از لیدار هستند، استفاده از دوربینهای اضافی از نظر اقتصادی مقرونبهصرفه خواهد بود – ایجاد افزونگی در سیستم و ایمنتر و قویتر کردن آن.
"این یکی از کاربردهای عملی است. با این حال، ما در مورد پیشرفت اساسی این کار نیز هیجانزده هستیم: این که میتوان دادههای سه بعدی را از اشیاء دو بعدی دریافت کرد.»
آموزش به هوش مصنوعی
MonoCon میتواند اشیاء سهبعدی را در تصاویر دوبعدی قبل از قرار دادن آنها در یک «جعبهی مرزی» شناسایی کند که به هوش مصنوعی لبههای بیرونی جسم را میگوید.
وو میگوید: «آنچه کار ما را متمایز میکند، این است که چگونه هوش مصنوعی را آموزش میدهیم، که مبتنی بر تکنیکهای آموزشی قبلی است. مانند تلاشهای قبلی، در حین آموزش هوش مصنوعی، اشیاء را در جعبههای محدود سه بعدی قرار میدهیم. با این حال، علاوه بر اینکه از هوش مصنوعی میخواهیم فاصله دوربین تا شی و ابعاد جعبههای مرزی را پیشبینی کند، از هوش مصنوعی میخواهیم مکان هر یک از هشت نقطه جعبه و فاصله آن از جعبه را پیشبینی کند. مرکز جعبه مرزی در دو بعدی. ما این را "زمینه کمکی" مینامیم، و ما متوجه شدیم که به هوش مصنوعی کمک میکند تا اشیاء سه بعدی را بر اساس تصاویر دو بعدی با دقت بیشتری شناسایی و پیشبینی کند.
«روش پیشنهادی با یک قضیه معروف در نظریه اندازه گیری، قضیه کرامر-ولد، انگیزه دارد. همچنین به طور بالقوه برای سایر کارهای پیش بینی خروجی ساختاریافته در بینایی رایانه قابل اجرا است.»
MonoCon با یک مجموعه داده معیار پرکاربرد به نام KITTI آزمایش شد.
وو میگوید: «در زمانی که ما این مقاله را ارائه کردیم، MonoCon بهتر از دهها برنامه هوش مصنوعی دیگر با هدف استخراج دادههای سه بعدی روی خودروها از تصاویر دوبعدی عمل کرد.
تیم اکنون به دنبال افزایش مقیاس فرآیند با مجموعه داده های بزرگتر است.
وو میگوید: «در حال حرکت رو به جلو، این را افزایش داده و با مجموعه دادههای بزرگتر برای ارزیابی و تنظیم دقیق MonoCon برای استفاده در رانندگی خودران کار میکنیم. ما همچنین میخواهیم برنامههای کاربردی در تولید را بررسی کنیم تا ببینیم آیا میتوانیم عملکرد وظایفی مانند استفاده از بازوهای رباتیک را بهبود بخشیم.»