ربات ها چگونه یاد می گیرند که کمک بخواهند

  • 1402/10/16
  • افزايش بهره وري
  • 4206
  • 0
  • 0
image

در دنیای در حال تکامل رباتیک، همکاری بین دانشگاه پرینستون و گوگل به عنوان یک نمونه پیشگامانه ظاهر می‌شود. مهندسان این دو مؤسسه با طراحی یک روش نوآورانه، مهارت حیاتی جدیدی را به ربات‌ها آموخته‌اند؛ یعنی تشخیص زمان نیازمندی به کمک و نحوه درخواست آن. این پیشرفت یک جلوه‌ی مهم در حوزه‌ی رباتیک است و شکاف بین عملکرد مستقل ربات‌ها و تعامل آنها با انسان را پر کرده است.

سفر به سمت روبات‌های هوشمندتر و مستقل‌تر همواره با یک چالش اساسی مواجه بوده است: پیچیدگی و ابهام در زبان انسان. مقابل وضوح دودویی کدهای کامپیوتر، زبان انسان بارز از پیچیدگی‌ها و ظرافت‌ها است که آن را به یک چالش هزاران چهره برای روبات‌ها تبدیل کرده است. به عنوان مثال، دستور ساده "کاسه را بردارید"، زمانی که چندین کاسه مختلف وجود دارد، به یک وظیفه پیچیده تبدیل می‌شود. ربات‌هایی که قابلیت حس کردن محیط و پاسخ به زبان را دارند، زمانی که با چنین ابهامات زبانی مواجه می‌شوند، خود را در معرض تصمیم‌گیری دشوار می‌بینند.

تعیین میزان عدم قطعیت

برای حل این چالش، تیم‌های پرینستون و گوگل یک رویکرد نوآورانه با نام "فاضل" معرفی کرده‌اند. این رویکرد اساساً به اندازه‌گیری میزان عدم قطعیت در دستورات زبان انسان می‌پردازد و از این معیار برای هدایت اقدامات ربات استفاده می‌کند. در شرایطی که یک دستور ممکن است به تفسیرات مختلف منجر شود، ربات اکنون قادر است سطح عدم قطعیت را اندازه‌گیری کرده و تصمیم بگیرد که کی به توضیحات بیشتر نیاز دارد. به عنوان مثال، در محیطی که کاسه‌های متعدد وجود دارد، این رویکرد به ربات این امکان را می‌دهد که بپرسد کدام کاسه را بردارد و در نتیجه از وقوع خطاها یا ناکارآمدی‌های احتمالی جلوگیری کند.

این رویکرد نه تنها توانایی ربات‌ها در درک بهتر زبان را افزایش می‌دهد، بلکه امنیت و کارایی آنها در اجرای وظایف نیز بهبود می‌یابد. با استفاده از مدل‌های زبان بزرگ مانند مدل‌های پشتیبانی ChatGPT، محققان یک گام مهم به سوی هماهنگی عملکرد ربات‌ها با انتظارات و نیازهای انسان برداشته‌اند.

نقش مدل های زبانی هوش مصنوعی 

ادغام مدل‌های زبان بزرگ (LLM) نقش اساسی در این رویکرد نوین دارد. LLM ها در پردازش و تفسیر زبان انسانی بسیار مفید هستند و در این زمینه از آنها برای ارزیابی و اندازه‌گیری عدم قطعیت در دستورات زبانی که به روبات‌ها داده می‌شوند، استفاده می‌شود.

با این حال، اعتماد به LLM بدون چالش نیست. همانطور که توسط تیم تحقیقاتی ذکر شده است، خروجی‌های LLM گاهی ممکن است غیرقابل اعتماد باشند.

آنیرودها ماجومدار، استادیار در دانشگاه پرینستون، بر اهمیت این تعادل تأکید دارد:

پیروی کورکورانه از برنامه‌های ایجاد شده توسط LLM ممکن است باعث شود که روبات‌ها به شیوه‌ای ناامن یا غیرقابل اعتماد عمل کنند، بنابراین ما نیاز داریم که روبات‌های مبتنی بر LLM بدانند که چه زمانی نمی‌دانند.

این نکته نیاز به یک رویکرد ظریف را تأکید می‌کند، جایی که LLM ها به عنوان ابزارهای راهنمایی برای تصمیم‌گیرندگان خطاناپذیر به کار می‌روند.

کاربرد عملی و تست

این روش در سناریوهای مختلف آزمایش شده و نشان داده است که در تطبیق با موقعیت‌ها و کارایی آن عالی است. یکی از این آزمایش‌ها شامل یک بازوی رباتیک بود که وظیفه داشت مواد غذایی اسباب‌بازی را به دسته‌های مختلف دسته‌بندی کند. این راه‌اندازی ساده نشان داد که ربات با انتخاب‌های واضح می‌تواند به‌طور موثر وظایف را هدایت کند. پیچیدگی آزمایش دیگری نیز وجود داشت که یک بازوی رباتیک را بر روی یک سکوی چرخدار در آشپزخانه اداری نصب کرد و ربات با چالش‌های دنیای واقعی مثل شناسایی آیتم صحیح برای قرار دادن در مایکروویو در مواجهه شد.

از طریق این آزمایش‌ها، ربات‌ها با موفقیت توانایی خود را در استفاده از عدم قطعیت برای تصمیم‌گیری یا جستجوی شفاف‌سازی نشان دادند و در نتیجه کاربرد عملی این روش را تأیید کردند.

تحقیقات آینده

با نگاه به آینده، پیامدهای این تحقیق بسیار بیشتر از کاربردهای فعلی خود دارد. تیم تحقیقاتی تحت رهبری آنیرودها ماجومدار و دانشجوی فارغ التحصیل آلن رن، در حال بررسی این موضوع هستند که چگونه می‌توانند این رویکرد را برای مسائل پیچیده‌تر در حوزه درک ربات و هوش مصنوعی به کار ببرند. این شامل سناریوهایی است که در آن روبات‌ها باید اطلاعات بینایی و زبان را برای تصمیم‌گیری ترکیب کنند و شکاف بین درک رباتیک و تعامل انسانی را بیشتر ببندند.

هدف این تحقیق در حال اجرا نه تنها افزایش توانایی روبات‌ها برای انجام وظایف با دقت بالاتر است، بلکه به سوی جهت‌یابی در جهان با درکی مشابه به شناخت انسان هدایت می‌شود. این تحقیق ممکن است مسیر را برای روبات‌هایی باز کند که نه تنها کارآمدتر و ایمن‌تر عمل کنند، بلکه با نیازهای محیط‌های انسانی مختلف بهتر همخوانی داشته باشند.

تگ ها