ReALM ، دستیار صوتی هوشمندتر از سیری اپل

  • 1403/1/27
  • اپ موبايل
  • 1716
  • 0
  • 0
image

از وقتی که سیری در سال ۲۰۱۱ به بازار آمد، اپل همیشه در پیشرفت دستیار صوتی بوده و با نیازهای جهانی کاربران هماهنگ بوده است. معرفی ReALM به عنوان یک لحظه مهم در این مسیر محسوب می‌شود و یک بررسی کلی از نقش آن در تکامل دستیارهای صوتی در ارتباط ما با دستگاه‌ها ارائه می‌دهد. این مقاله به بررسی اثرات ReALM بر سیری و مسیرهای ممکن دستیارهای صوتی در آینده می‌پردازد.

درباره دستیار صوتی سیری 

این سفر زمانی آغاز شد که اپل سیری، یک سیستم هوش مصنوعی پیشرفته را در دستگاه‌های خود ادغام کرد و نحوه تعامل ما با فناوری خود را تغییر داد. سیری که از فناوری توسعه یافته توسط SRI International سرچشمه می‌گیرد، به استاندارد طلایی دستیارهای فعال صوتی تبدیل شد. کاربران می‌توانند کارهایی مانند جستجوی اینترنتی و برنامه‌ریزی را از طریق دستورات صوتی ساده انجام دهند، مرزهای رابط‌های مکالمه را کنار بگذارند و رقابتی را در بازار دستیار صوتی ایجاد کنند.

Siri 2.0: عصر جدیدی از دستیاران صوتی

همانطور که اپل برای انتشار iOS 18 در کنفرانس جهانی توسعه‌دهندگان (WWDC) در ژوئن 2024 آماده می‌شود، انتظار می‌رود که در جامعه فناوری، یک تکامل قابل توجه در سیری رخ دهد، به نام Siri 2.0. این مرحله جدید وعده می‌دهد که پیشرفت‌های بزرگی در حوزه هوش مصنوعی ارائه دهد و سیری را به یک دستیار مجازی، حتی پیچیده‌تر تبدیل کند. در حالی که جزئیات دقیق هنوز محرمانه است، دنیای فناوری با انتظاراتی برای رسیدن سیری به سطوح جدیدی از هوش مصنوعی و تعامل شخصی‌سازی شده با کاربر، با استفاده از مدل‌های پیچیده یادگیری زبان مانند ChatGPT، پر است. در این زمینه، معرفی ReALM، یک مدل زبان فشرده، پیشرفت‌های احتمالی را پیشنهاد می‌دهد که Siri 2.0 ممکن است برای کاربران خود معرفی کند. بخش‌های بعدی به نقش ReALM و تأثیر بالقوه آن در پیشرفت مداوم سیری خواهند پرداخت.

درباره ReALM

ReALM که مخفف Reference Resolution As Language Modeling است، یک مدل زبان تخصصی است که در تفسیر ارجاعات متنی و مبهم در طول مکالمات، مانند "آن یکی" یا "این" مهارت دارد. به دلیل توانایی اش در پردازش ارجاعات محاوره‌ای و بصری، توانایی تبدیل آنها به قالب متنی متمایز را دارد. این ویژگی امکان طراحی و تفسیر طرح‌بندی‌ها و عناصر صفحه‌نمایش را در یک دیالوگ فراهم می‌کند، که این امر برای مدیریت دقیق پرس‌و‌جوها در زمینه‌های وابسته بصری بسیار حیاتی است.

معماری ReALM از نسخه‌های کوچک‌تر مانند ReALM-80M تا نسخه‌های بزرگ‌تر مانند ReALM-3B، بهینه‌سازی شده‌اند تا از نظر محاسباتی برای ادغام با دستگاه‌های تلفن همراه کارآمد باشند. این بهره‌وری با کاهش مصرف انرژی و کاهش فشار بر منابع پردازشی، امکان افزایش عمر باتری و ارائه زمان پاسخ سریع در دستگاه‌های مختلف را فراهم می‌کند.

علاوه بر این، طراحی ReALM به‌روزرسانی‌های ماژولار را در خود جای می‌دهد و ادغام یکپارچه آخرین پیشرفت‌ها در وضوح مرجع را تسهیل می‌کند. این رویکرد ماژولار نه تنها سازگاری و انعطاف‌پذیری مدل را افزایش می‌دهد، بلکه دوام و اثربخشی طولانی‌مدت آن را تضمین می‌کند و به آن اجازه می‌دهد نیازهای کاربر در حال تحول و استانداردهای فناوری را در طیف گسترده‌ای از دستگاه‌ها برآورده کند.

ReALM در مقابل مدل‌های زبان

در حالی که مدل‌های زبان مانند GPT-3.5 اصولاً متن را پردازش می‌کنند، ReALM یک مسیر چندوجهی را، مشابه مدل‌هایی مانند Gemini، با کار کردن با متن و تصاویر بصری طی می‌کند. برخلاف قابلیت‌های گسترده‌تر GPT-3.5 و Gemini ، که وظایفی مانند تولید متن، درک مطلب و ایجاد تصویر را انجام می‌دهند، ReALM به‌ویژه برای رمزگشایی زمینه‌های محاوره‌ای و بصری طراحی شده است. با این حال، برخلاف مدل‌های چندوجهی مانند Gemini که مستقیماً داده‌های بصری و متنی را پردازش می‌کند، ReALM محتوای بصری صفحه‌ها را به متن، موجودیت‌های حاشیه‌نویسی و جزئیات فضایی آن‌ها ترجمه می‌کند. این تبدیل به ReALM اجازه می‌دهد تا محتوای صفحه را به صورت متنی تفسیر کند و شناسایی دقیق‌تر و درک منابع روی صفحه را تسهیل کند.

چگونه ReALM می تواند سیری را متحول کند؟

ReALM می‌تواند قابلیت‌های سیری را به طور چشمگیری ارتقاء دهد و آن را به یک دستیار بصری تر و آگاه تر از زمینه تبدیل کند. در زیر تأثیرات آن شرح داده شده است:

1. درک متنی بهتر: ReALM در تفسیر ارجاعات مبهم در مکالمات تخصص دارد و به طور بالقوه توانایی سیری را برای درک پرس و جوهای وابسته به زمینه بهبود می‌بخشد. این به کاربران اجازه می‌دهد تا به طور طبیعی با سیری تعامل داشته باشند، زیرا می‌تواند ارجاعاتی مانند "باز آن آهنگ را دوباره پخش کند" یا "او را صدا کن" بدون جزئیات اضافی را درک کند.

2. تعامل پیشرفته با صفحه: ReALM با مهارت خود در تفسیر طرح‌بندی صفحه‌نمایش و عناصر درون دیالوگ‌ها، می‌تواند سیری را قادر سازد تا به صورت روان‌تری با محتوای بصری دستگاه ادغام شود. سیری سپس می‌تواند دستورات مربوط به موارد روی صفحه را اجرا کند، مانند "اپل‌نامه را در کنار Mail باز کنید" یا "در این صفحه به پایین اسکرول کنید" و ابزار آن را در کارهای مختلف گسترش دهد.

3. شخصی‌سازی: با یادگیری از تعاملات قبلی، ReALM می‌تواند توانایی سیری در ارائه پاسخ‌های شخصی و تطبیقی را بهبود بخشد. با گذشت زمان، سیری ممکن است نیازها و ترجیحات کاربر را پیش‌بینی کند، اقداماتی را بر اساس رفتار گذشته و درک زمینه‌ای، شبیه به یک دستیار شخصی آگاه، پیشنهاد یا آغاز کند.

4. دسترس‌پذیری بهبودیافته: قابلیت‌های درک متنی و مرجع ReALM می‌تواند به طور قابل‌توجهی برای دسترسی مفید باشد و فناوری را فراگیرتر کند. سیری که توسط ReALM پشتیبانی می‌شود، می‌تواند دستورات مبهم یا جزئی را به دقت تفسیر کند و استفاده آسان‌تر و طبیعی‌تر از دستگاه را برای افراد دارای اختلالات فیزیکی یا بینایی تسهیل کند.

ReALM  استراتژی هوش مصنوعی اپل

راه‌اندازی ReALM نمایانگر یک جنبه کلیدی از استراتژی هوش مصنوعی اپل است که بر روی هوش روی دستگاه تاکید دارد. این توسعه با روند گسترده‌تر صنعت محاسبات لبه، که در آن داده‌ها به صورت محلی روی دستگاه‌ها پردازش می‌شوند، همخوانی دارد و به کاهش تأخیر، حفظ پهنای باند، و ایمن‌سازی داده‌های کاربر در خود دستگاه، می‌کند.

پروژه ReALM همچنین اهداف گسترده‌تر هوش مصنوعی اپل را به تصویر می‌کشد و نه تنها بر اجرای دستورات بلکه بر درک عمیق‌تر و پیش‌بینی نیازهای کاربران تمرکز دارد. ReALM نشان‌دهنده گامی به سوی نوآوری‌های آینده است که در آن دستگاه‌ها می‌توانند پشتیبانی شخصی‌سازی‌شده و پیش‌بینی‌کننده‌تر را با درک عمیق عادات و ترجیحات کاربر ارائه دهند.

 

 

 

تگ ها