از وقتی که سیری در سال ۲۰۱۱ به بازار آمد، اپل همیشه در پیشرفت دستیار صوتی بوده و با نیازهای جهانی کاربران هماهنگ بوده است. معرفی ReALM به عنوان یک لحظه مهم در این مسیر محسوب میشود و یک بررسی کلی از نقش آن در تکامل دستیارهای صوتی در ارتباط ما با دستگاهها ارائه میدهد. این مقاله به بررسی اثرات ReALM بر سیری و مسیرهای ممکن دستیارهای صوتی در آینده میپردازد.
درباره دستیار صوتی سیری
این سفر زمانی آغاز شد که اپل سیری، یک سیستم هوش مصنوعی پیشرفته را در دستگاههای خود ادغام کرد و نحوه تعامل ما با فناوری خود را تغییر داد. سیری که از فناوری توسعه یافته توسط SRI International سرچشمه میگیرد، به استاندارد طلایی دستیارهای فعال صوتی تبدیل شد. کاربران میتوانند کارهایی مانند جستجوی اینترنتی و برنامهریزی را از طریق دستورات صوتی ساده انجام دهند، مرزهای رابطهای مکالمه را کنار بگذارند و رقابتی را در بازار دستیار صوتی ایجاد کنند.
Siri 2.0: عصر جدیدی از دستیاران صوتی
همانطور که اپل برای انتشار iOS 18 در کنفرانس جهانی توسعهدهندگان (WWDC) در ژوئن 2024 آماده میشود، انتظار میرود که در جامعه فناوری، یک تکامل قابل توجه در سیری رخ دهد، به نام Siri 2.0. این مرحله جدید وعده میدهد که پیشرفتهای بزرگی در حوزه هوش مصنوعی ارائه دهد و سیری را به یک دستیار مجازی، حتی پیچیدهتر تبدیل کند. در حالی که جزئیات دقیق هنوز محرمانه است، دنیای فناوری با انتظاراتی برای رسیدن سیری به سطوح جدیدی از هوش مصنوعی و تعامل شخصیسازی شده با کاربر، با استفاده از مدلهای پیچیده یادگیری زبان مانند ChatGPT، پر است. در این زمینه، معرفی ReALM، یک مدل زبان فشرده، پیشرفتهای احتمالی را پیشنهاد میدهد که Siri 2.0 ممکن است برای کاربران خود معرفی کند. بخشهای بعدی به نقش ReALM و تأثیر بالقوه آن در پیشرفت مداوم سیری خواهند پرداخت.
درباره ReALM
ReALM که مخفف Reference Resolution As Language Modeling است، یک مدل زبان تخصصی است که در تفسیر ارجاعات متنی و مبهم در طول مکالمات، مانند "آن یکی" یا "این" مهارت دارد. به دلیل توانایی اش در پردازش ارجاعات محاورهای و بصری، توانایی تبدیل آنها به قالب متنی متمایز را دارد. این ویژگی امکان طراحی و تفسیر طرحبندیها و عناصر صفحهنمایش را در یک دیالوگ فراهم میکند، که این امر برای مدیریت دقیق پرسوجوها در زمینههای وابسته بصری بسیار حیاتی است.
معماری ReALM از نسخههای کوچکتر مانند ReALM-80M تا نسخههای بزرگتر مانند ReALM-3B، بهینهسازی شدهاند تا از نظر محاسباتی برای ادغام با دستگاههای تلفن همراه کارآمد باشند. این بهرهوری با کاهش مصرف انرژی و کاهش فشار بر منابع پردازشی، امکان افزایش عمر باتری و ارائه زمان پاسخ سریع در دستگاههای مختلف را فراهم میکند.
علاوه بر این، طراحی ReALM بهروزرسانیهای ماژولار را در خود جای میدهد و ادغام یکپارچه آخرین پیشرفتها در وضوح مرجع را تسهیل میکند. این رویکرد ماژولار نه تنها سازگاری و انعطافپذیری مدل را افزایش میدهد، بلکه دوام و اثربخشی طولانیمدت آن را تضمین میکند و به آن اجازه میدهد نیازهای کاربر در حال تحول و استانداردهای فناوری را در طیف گستردهای از دستگاهها برآورده کند.
ReALM در مقابل مدلهای زبان
در حالی که مدلهای زبان مانند GPT-3.5 اصولاً متن را پردازش میکنند، ReALM یک مسیر چندوجهی را، مشابه مدلهایی مانند Gemini، با کار کردن با متن و تصاویر بصری طی میکند. برخلاف قابلیتهای گستردهتر GPT-3.5 و Gemini ، که وظایفی مانند تولید متن، درک مطلب و ایجاد تصویر را انجام میدهند، ReALM بهویژه برای رمزگشایی زمینههای محاورهای و بصری طراحی شده است. با این حال، برخلاف مدلهای چندوجهی مانند Gemini که مستقیماً دادههای بصری و متنی را پردازش میکند، ReALM محتوای بصری صفحهها را به متن، موجودیتهای حاشیهنویسی و جزئیات فضایی آنها ترجمه میکند. این تبدیل به ReALM اجازه میدهد تا محتوای صفحه را به صورت متنی تفسیر کند و شناسایی دقیقتر و درک منابع روی صفحه را تسهیل کند.
چگونه ReALM می تواند سیری را متحول کند؟
ReALM میتواند قابلیتهای سیری را به طور چشمگیری ارتقاء دهد و آن را به یک دستیار بصری تر و آگاه تر از زمینه تبدیل کند. در زیر تأثیرات آن شرح داده شده است:
1. درک متنی بهتر: ReALM در تفسیر ارجاعات مبهم در مکالمات تخصص دارد و به طور بالقوه توانایی سیری را برای درک پرس و جوهای وابسته به زمینه بهبود میبخشد. این به کاربران اجازه میدهد تا به طور طبیعی با سیری تعامل داشته باشند، زیرا میتواند ارجاعاتی مانند "باز آن آهنگ را دوباره پخش کند" یا "او را صدا کن" بدون جزئیات اضافی را درک کند.
2. تعامل پیشرفته با صفحه: ReALM با مهارت خود در تفسیر طرحبندی صفحهنمایش و عناصر درون دیالوگها، میتواند سیری را قادر سازد تا به صورت روانتری با محتوای بصری دستگاه ادغام شود. سیری سپس میتواند دستورات مربوط به موارد روی صفحه را اجرا کند، مانند "اپلنامه را در کنار Mail باز کنید" یا "در این صفحه به پایین اسکرول کنید" و ابزار آن را در کارهای مختلف گسترش دهد.
3. شخصیسازی: با یادگیری از تعاملات قبلی، ReALM میتواند توانایی سیری در ارائه پاسخهای شخصی و تطبیقی را بهبود بخشد. با گذشت زمان، سیری ممکن است نیازها و ترجیحات کاربر را پیشبینی کند، اقداماتی را بر اساس رفتار گذشته و درک زمینهای، شبیه به یک دستیار شخصی آگاه، پیشنهاد یا آغاز کند.
4. دسترسپذیری بهبودیافته: قابلیتهای درک متنی و مرجع ReALM میتواند به طور قابلتوجهی برای دسترسی مفید باشد و فناوری را فراگیرتر کند. سیری که توسط ReALM پشتیبانی میشود، میتواند دستورات مبهم یا جزئی را به دقت تفسیر کند و استفاده آسانتر و طبیعیتر از دستگاه را برای افراد دارای اختلالات فیزیکی یا بینایی تسهیل کند.
ReALM استراتژی هوش مصنوعی اپل
راهاندازی ReALM نمایانگر یک جنبه کلیدی از استراتژی هوش مصنوعی اپل است که بر روی هوش روی دستگاه تاکید دارد. این توسعه با روند گستردهتر صنعت محاسبات لبه، که در آن دادهها به صورت محلی روی دستگاهها پردازش میشوند، همخوانی دارد و به کاهش تأخیر، حفظ پهنای باند، و ایمنسازی دادههای کاربر در خود دستگاه، میکند.
پروژه ReALM همچنین اهداف گستردهتر هوش مصنوعی اپل را به تصویر میکشد و نه تنها بر اجرای دستورات بلکه بر درک عمیقتر و پیشبینی نیازهای کاربران تمرکز دارد. ReALM نشاندهنده گامی به سوی نوآوریهای آینده است که در آن دستگاهها میتوانند پشتیبانی شخصیسازیشده و پیشبینیکنندهتر را با درک عمیق عادات و ترجیحات کاربر ارائه دهند.