شناسایی اشیاء سه بعدی با کمک هوش مصنوعی

1402/10/3
تحقيق و پژوهش
4498
0
0

یک تکنیک جدید توسعه یافته توسط محققان دانشگاه ایالتی کارولینای شمالی، توانایی برنامه‌های هوش مصنوعی (AI) را در شناسایی اشیاء سه بعدی بهبود می‌بخشد. این تکنیک با نام MonoCon، همچنین به هوش مصنوعی کمک می‌کند تا با استفاده از تصاویر دوبعدی، نحوه ارتباط اشیاء سه بعدی در فضا را یاد بگیرد.

MonoCon قابلیت اجرای طیف گسترده‌ای از کاربردها را دارد، از جمله کمک به وسایل نقلیه خودران برای حرکت در اطراف دیگر وسایل نقلیه با استفاده از تصاویر 2 بعدی از دوربین داخلی. همچنین می‌تواند در زمینه تولید و رباتیک نقش داشته باشد.

تیانفو وو نویسنده مسئول مقاله تحقیقاتی و استادیار مهندسی برق و کامپیوتر در دانشگاه ایالتی کارولینای شمالی است.

وو می‌گوید: «ما در دنیای سه‌بعدی زندگی می‌کنیم، اما وقتی عکس می‌گیرید، آن دنیا را در یک تصویر دو بعدی ثبت می‌کند.

برنامه‌های هوش مصنوعی ورودی بصری را از دوربین‌ها دریافت می‌کنند. بنابراین اگر می‌خواهیم هوش مصنوعی با جهان تعامل داشته باشد، باید اطمینان حاصل کنیم که می‌تواند آنچه را که تصاویر دوبعدی می‌توانند درباره فضای سه‌بعدی به آن بگویند، تفسیر کند. در این تحقیق، ما بر روی یک بخش از این چالش متمرکز شده‌ایم: اینکه چگونه می‌توانیم هوش مصنوعی اشیاء سه‌بعدی - مانند افراد یا ماشین‌ها - را در تصاویر دوبعدی تشخیص دهیم و آن اشیاء را در فضا قرار دهیم.

وسایل نقلیه خودران

وسایل نقلیه خودران معمولاً برای حرکت در فضای سه بعدی به لیدار متکی هستند. لیدار، که از لیزر برای اندازه‌گیری فاصله استفاده می‌کند، گران است، به این معنی که سیستم‌های خودمختار دارای افزونگی زیادی نیستند. قرار دادن ده‌ها حسگر لیدار روی یک خودروی بدون راننده تولید انبوه بسیار گران خواهد بود.

وو می‌گوید: «اما اگر یک وسیله نقلیه خودمختار بتواند از ورودی‌های بصری برای حرکت در فضا استفاده کند، می‌توانید به صورت اضافی بسازید. از آنجایی که دوربین‌ها به‌طور قابل‌توجهی ارزان‌تر از لیدار هستند، استفاده از دوربین‌های اضافی از نظر اقتصادی مقرون‌به‌صرفه خواهد بود – ایجاد افزونگی در سیستم و ایمن‌تر و قوی‌تر کردن آن.

"این یکی از کاربردهای عملی است. با این حال، ما در مورد پیشرفت اساسی این کار نیز هیجان‌زده هستیم: این که می‌توان داده‌های سه بعدی را از اشیاء دو بعدی دریافت کرد.»

آموزش به هوش مصنوعی

MonoCon می‌تواند اشیاء سه‌بعدی را در تصاویر دوبعدی قبل از قرار دادن آن‌ها در یک «جعبه‌ی مرزی» شناسایی کند که به هوش مصنوعی لبه‌های بیرونی جسم را می‌گوید.

وو می‌گوید: «آنچه کار ما را متمایز می‌کند، این است که چگونه هوش مصنوعی را آموزش می‌دهیم، که مبتنی بر تکنیک‌های آموزشی قبلی است. مانند تلاش‌های قبلی، در حین آموزش هوش مصنوعی، اشیاء را در جعبه‌های محدود سه بعدی قرار می‌دهیم. با این حال، علاوه بر اینکه از هوش مصنوعی می‌خواهیم فاصله دوربین تا شی و ابعاد جعبه‌های مرزی را پیش‌بینی کند، از هوش مصنوعی می‌خواهیم مکان هر یک از هشت نقطه جعبه و فاصله آن از جعبه را پیش‌بینی کند. مرکز جعبه مرزی در دو بعدی. ما این را "زمینه کمکی" می‌نامیم، و ما متوجه شدیم که به هوش مصنوعی کمک می‌کند تا اشیاء سه بعدی را بر اساس تصاویر دو بعدی با دقت بیشتری شناسایی و پیش‌بینی کند.

«روش پیشنهادی با یک قضیه معروف در نظریه اندازه گیری، قضیه کرامر-ولد، انگیزه دارد. همچنین به طور بالقوه برای سایر کارهای پیش بینی خروجی ساختاریافته در بینایی رایانه قابل اجرا است.»

MonoCon با یک مجموعه داده معیار پرکاربرد به نام KITTI آزمایش شد.

وو می‌گوید: «در زمانی که ما این مقاله را ارائه کردیم، MonoCon بهتر از ده‌ها برنامه هوش مصنوعی دیگر با هدف استخراج داده‌های سه بعدی روی خودروها از تصاویر دوبعدی عمل کرد.

تیم اکنون به دنبال افزایش مقیاس فرآیند با مجموعه داده های بزرگتر است.

وو می‌گوید: «در حال حرکت رو به جلو، این را افزایش داده و با مجموعه داده‌های بزرگ‌تر برای ارزیابی و تنظیم دقیق MonoCon برای استفاده در رانندگی خودران کار می‌کنیم. ما همچنین می‌خواهیم برنامه‌های کاربردی در تولید را بررسی کنیم تا ببینیم آیا می‌توانیم عملکرد وظایفی مانند استفاده از بازوهای رباتیک را بهبود بخشیم.»