در دنیای در حال تکامل رباتیک، همکاری بین دانشگاه پرینستون و گوگل به عنوان یک نمونه پیشگامانه ظاهر میشود. مهندسان این دو مؤسسه با طراحی یک روش نوآورانه، مهارت حیاتی جدیدی را به رباتها آموختهاند؛ یعنی تشخیص زمان نیازمندی به کمک و نحوه درخواست آن. این پیشرفت یک جلوهی مهم در حوزهی رباتیک است و شکاف بین عملکرد مستقل رباتها و تعامل آنها با انسان را پر کرده است.
سفر به سمت روباتهای هوشمندتر و مستقلتر همواره با یک چالش اساسی مواجه بوده است: پیچیدگی و ابهام در زبان انسان. مقابل وضوح دودویی کدهای کامپیوتر، زبان انسان بارز از پیچیدگیها و ظرافتها است که آن را به یک چالش هزاران چهره برای روباتها تبدیل کرده است. به عنوان مثال، دستور ساده "کاسه را بردارید"، زمانی که چندین کاسه مختلف وجود دارد، به یک وظیفه پیچیده تبدیل میشود. رباتهایی که قابلیت حس کردن محیط و پاسخ به زبان را دارند، زمانی که با چنین ابهامات زبانی مواجه میشوند، خود را در معرض تصمیمگیری دشوار میبینند.
تعیین میزان عدم قطعیت
برای حل این چالش، تیمهای پرینستون و گوگل یک رویکرد نوآورانه با نام "فاضل" معرفی کردهاند. این رویکرد اساساً به اندازهگیری میزان عدم قطعیت در دستورات زبان انسان میپردازد و از این معیار برای هدایت اقدامات ربات استفاده میکند. در شرایطی که یک دستور ممکن است به تفسیرات مختلف منجر شود، ربات اکنون قادر است سطح عدم قطعیت را اندازهگیری کرده و تصمیم بگیرد که کی به توضیحات بیشتر نیاز دارد. به عنوان مثال، در محیطی که کاسههای متعدد وجود دارد، این رویکرد به ربات این امکان را میدهد که بپرسد کدام کاسه را بردارد و در نتیجه از وقوع خطاها یا ناکارآمدیهای احتمالی جلوگیری کند.
این رویکرد نه تنها توانایی رباتها در درک بهتر زبان را افزایش میدهد، بلکه امنیت و کارایی آنها در اجرای وظایف نیز بهبود مییابد. با استفاده از مدلهای زبان بزرگ مانند مدلهای پشتیبانی ChatGPT، محققان یک گام مهم به سوی هماهنگی عملکرد رباتها با انتظارات و نیازهای انسان برداشتهاند.
نقش مدل های زبانی هوش مصنوعی
ادغام مدلهای زبان بزرگ (LLM) نقش اساسی در این رویکرد نوین دارد. LLM ها در پردازش و تفسیر زبان انسانی بسیار مفید هستند و در این زمینه از آنها برای ارزیابی و اندازهگیری عدم قطعیت در دستورات زبانی که به روباتها داده میشوند، استفاده میشود.
با این حال، اعتماد به LLM بدون چالش نیست. همانطور که توسط تیم تحقیقاتی ذکر شده است، خروجیهای LLM گاهی ممکن است غیرقابل اعتماد باشند.
آنیرودها ماجومدار، استادیار در دانشگاه پرینستون، بر اهمیت این تعادل تأکید دارد:
پیروی کورکورانه از برنامههای ایجاد شده توسط LLM ممکن است باعث شود که روباتها به شیوهای ناامن یا غیرقابل اعتماد عمل کنند، بنابراین ما نیاز داریم که روباتهای مبتنی بر LLM بدانند که چه زمانی نمیدانند.
این نکته نیاز به یک رویکرد ظریف را تأکید میکند، جایی که LLM ها به عنوان ابزارهای راهنمایی برای تصمیمگیرندگان خطاناپذیر به کار میروند.
کاربرد عملی و تست
این روش در سناریوهای مختلف آزمایش شده و نشان داده است که در تطبیق با موقعیتها و کارایی آن عالی است. یکی از این آزمایشها شامل یک بازوی رباتیک بود که وظیفه داشت مواد غذایی اسباببازی را به دستههای مختلف دستهبندی کند. این راهاندازی ساده نشان داد که ربات با انتخابهای واضح میتواند بهطور موثر وظایف را هدایت کند. پیچیدگی آزمایش دیگری نیز وجود داشت که یک بازوی رباتیک را بر روی یک سکوی چرخدار در آشپزخانه اداری نصب کرد و ربات با چالشهای دنیای واقعی مثل شناسایی آیتم صحیح برای قرار دادن در مایکروویو در مواجهه شد.
از طریق این آزمایشها، رباتها با موفقیت توانایی خود را در استفاده از عدم قطعیت برای تصمیمگیری یا جستجوی شفافسازی نشان دادند و در نتیجه کاربرد عملی این روش را تأیید کردند.
تحقیقات آینده
با نگاه به آینده، پیامدهای این تحقیق بسیار بیشتر از کاربردهای فعلی خود دارد. تیم تحقیقاتی تحت رهبری آنیرودها ماجومدار و دانشجوی فارغ التحصیل آلن رن، در حال بررسی این موضوع هستند که چگونه میتوانند این رویکرد را برای مسائل پیچیدهتر در حوزه درک ربات و هوش مصنوعی به کار ببرند. این شامل سناریوهایی است که در آن روباتها باید اطلاعات بینایی و زبان را برای تصمیمگیری ترکیب کنند و شکاف بین درک رباتیک و تعامل انسانی را بیشتر ببندند.
هدف این تحقیق در حال اجرا نه تنها افزایش توانایی روباتها برای انجام وظایف با دقت بالاتر است، بلکه به سوی جهتیابی در جهان با درکی مشابه به شناخت انسان هدایت میشود. این تحقیق ممکن است مسیر را برای روباتهایی باز کند که نه تنها کارآمدتر و ایمنتر عمل کنند، بلکه با نیازهای محیطهای انسانی مختلف بهتر همخوانی داشته باشند.