در دهه گذشته، حوزه هوش مصنوعی به شکل چشمگیری پیشرفت کرده است، این پیشرفتها بیشتر به دلیل پیشرفت در یادگیری عمیق و پردازش زبان طبیعی است. یکی از این پیشرفتها مدلهای زبان بزرگ است، که به طور عمده روی مقادیر زیادی از دادههای متنی آموزش دیدهاند و قادر به تولید متنی شبیه انسان و شرکت در مکالمات هستند.
مدلهایی مانند Google s Palm، Anthropic s Claude و DeepMind s Gopher تواناییهای بزرگی را از کدنویسی تا استدلال عقل سلیم نشان دادهاند. با این حال، بسیاری از این مدلها هنوز به صورت عمومی منتشر نشدهاند و دسترسی به آنها برای تحقیق و توسعه محدود است.
اما با انتشار Gemma - خانوادهای از LLM ها از DeepMind Google، که بر اساس مدلهای اختصاصی قدرتمند Gemini توسعه یافته است، این موضوع تغییر کرده است. در این مطلب، ما به بررسی Gemma میپردازیم و معماری، فرآیند آموزش، عملکرد و انتشار مسئولانه آن را بررسی میکنیم.
مروری بر جما
در فوریه 2023، DeepMind دو نسخه از مدلهای Gemma را با منبع باز منتشر کرد - یک نسخه با 2 میلیارد پارامتر که برای استفاده در دستگاهها بهینه شده است و یک نسخه بزرگتر با 7 میلیارد پارامتر که برای استفاده از GPU/TPU طراحی شده است.
جما از معماری و روش آموزشی مبتنی بر ترانسفورماتور استفاده میکند که مشابه مدلهای پیشرو DeepMind، یعنی Gemini، هستند. این مدل بر روی 6 تریلیون نشانه متنی از اسناد وب، ریاضیات و کد آموزش داده شده است.
DeepMind نقاط بازرسی خام و از پیش آموزش دیده Gemma و نسخههایی را که با یادگیری نظارت شده و بازخورد انسانی تنظیم شده بودند را منتشر کرد، این کار برای ایجاد قابلیتهای پیشرفته در زمینههایی مانند گفتگو، پیروی از دستورالعملها و کدنویسی انجام شده است.
شروع کار با Gemma
انتشار آزاد Gemma، قابلیتهای پیشرفته هوش مصنوعی آن را برای توسعهدهندگان، محققان و علاقهمندان به دسترسی قرار میدهد. در ادامه، یک راهنمای سریع برای شروع آمده است:
1. پلتفرم استقرار Agnostic : Gemma انعطاف پذیری بسیاری دارد - میتوانید آن را روی CPU، GPU یا TPU اجرا کنید. از TensorFlow Lite یا HuggingFace Transformers برای استفاده از آن بر روی CPU استفاده کنید، و اگر به عملکرد سریع در GPU/TPU نیاز دارید، از TensorFlow استفاده کنید. همچنین، سرویسهای ابری مانند Google Cloud s Vertex AI نیز مقیاسبندی را ارائه میدهند.
2. دسترسی به مدلهای از پیش آموزش دیده : Gemma در انواع مختلف از قبل آموزش دیده برای مصارف مختلف عرضه شده است. مدلهای 2B و 7B تواناییهای تولیدی قوی را در اختیار شما قرار میدهند. برای تنظیم دقیق سفارشی، مدل های 2B-FT و 7B-FT نقطه شروع ایدهآل هستند.
3. ساخت اپلیکیشنهای هیجانانگیز : با استفاده از Gemma، میتوانید انواع برنامههای کاربردی متنوعی را ایجاد کنید، از جمله تولید داستان، ترجمه زبان، پاسخگویی به سوالات و تولید محتوای خلاقانه. نکته مهم این است که با تنظیم دقیق مجموعه دادههای خود، از نقاط قوت Gemma به بهترین شکل ممکن استفاده کنید.
4. معماری : Gemma از معماری ترانسفورماتور فقط به عنوان رمزگشا استفاده میکند، که بر پایه پیشرفتهایی مانند توجه چند پرس و جو و تعبیه های موقعیتی چرخشی ساخته شده است. این معماری به مدلهای Gemma امکان میدهد تا به تعادل مناسبی بین عملکرد، سرعت استنتاج و اندازه مدل برسند.
داده ها و فرآیند آموزش
جما با استفاده از 6 تریلیون نشانه داده متنی، اصولاً به زبان انگلیسی، آموزش دید، که شامل اسناد وب، متون ریاضی و کدهای منبع بود. DeepMind تلاشهای قابل توجهی را برای فیلتر کردن دادهها، حذف محتوای سمی یا مضر با استفاده از طبقهبندیکنندهها و روشهای اکتشافی انجام داد.
آموزش با استفاده از زیرساخت Google TPUv5 انجام شد و تا 4096 TPU برای آموزش Gemma-7B به کار گرفته شد. مدلهای عظیم با استفاده از سختافزار کالا و تکنیکهای موازی دادهها آموزش داده شدند.
استفاده از آموزش مرحلهای، به طور مداوم توزیع دادهها را برای تمرکز بر متون با کیفیت بالا و مرتبط تنظیم کرد. در مراحل نهایی، از ترکیبی از نمونههای دستورالعملهای مصنوعی و تولید شده توسط انسان برای افزایش قابلیتها استفاده شد.
عملکرد مدل
DeepMind مدلهای Gemma را بر روی مجموعهای گسترده از بیش از 25 معیار که شامل پاسخگویی به سؤالات، استدلال، ریاضیات، کدنویسی، عقل سلیم و قابلیتهای گفتگو است، به دقت ارزیابی کرد.
Gemma در مقایسه با مدلهای منبع باز با اندازه مشابه، در اکثر معیارها به نتایج پیشرفتهتری دست یافت. برخی از نکات برجسته این عبارتند:
ریاضیات: در آزمونهای استدلال ریاضی مانند GSM8K و MATH، Gemma برتری دارد و بیش از 10 امتیاز نسبت به مدلهایی مانند Codex و Anthropic s Claude دارد.
کدنویسی: Gemma در معیارهای برنامهنویسی مانند MBPP با عملکرد Codex همخوانی دارد یا حتی از آن برتر عمل میکند، اگرچه به طور خاص روی کد آموزش نیافته است.
دیالوگ: Gemma توانایی مکالمه قوی با 51.7 درصد برنده بودن نسبت به Mistral-7B Anthropic در آزمونهای ترجیحی انسانی را نشان میدهد.
استدلال: در کارهایی که نیاز به استنتاج مانند ARC و Winogrande دارند، Gemma از سایر مدلهای 7B 5-10 امتیاز بهتر عمل میکند.
تطبیقپذیری Gemma در بین رشتهها، قابلیتهای هوش عمومی قوی آن را نشان میدهد. با وجود شکافهایی در عملکرد سطح انسانی، Gemma نشان دهنده یک جهش به جلو در NLP منبع باز است.
ایمنی و مسئولیت پذیری
انتشار وزنهای منبع باز مدلهای بزرگ، چالشهایی در مورد سوءاستفاده عمدی و سوگیریهای مدل ذاتی ایجاد میکند. DeepMind اقداماتی را برای کاهش خطرات انجام داد:
1. فیلتر داده: متن بالقوه سمی، غیرقانونی یا مغرضانه با استفاده از طبقهبندیکننده و اکتشافی از دادههای آموزشی حذف شد.
2. ارزیابیها: جما بر روی بیش از 30 معیار برای ارزیابی ایمنی، انصاف و استحکام مورد آزمایش قرار گرفت. با مدلهای دیگر مطابقت داشت یا از آن فراتر رفت.
3. تنظیم دقیق: تنظیم دقیق مدل با تمرکز بر بهبود قابلیتهای ایمنی مانند فیلتر کردن اطلاعات و رفتارهای مناسب پوشش/ امتناع.
4. شرایط استفاده: شرایط استفاده، کاربردهای توهین آمیز، غیرقانونی یا غیراخلاقی مدلهای Gemma را ممنوع می کند. با این حال، اجرا همچنان چالش برانگیز است.
5. کارتهای مدل: کارتهایی که قابلیتها، محدودیتها و سوگیریهای مدل را به تفصیل شرح میدهند برای ارتقای شفافیت منتشر شدند.
در حالی که خطرات ناشی از منبع باز وجود دارد، DeepMind تشخیص داد که انتشار Gemma بر اساس مشخصات ایمنی و امکان تحقیقات آن، مزایای اجتماعی خالص را ارائه می دهد. با این حال، نظارت دقیق از آسیبهای احتمالی همچنان حیاتی خواهد بود.
فعال کردن موج بعدی نوآوری هوش مصنوعی
انتشار Gemma به عنوان یک خانواده مدل منبع باز میتواند پیشرفت در جامعه هوش مصنوعی را باز کند:
1. دسترسپذیری: Gemma موانع را برای سازمانها برای ایجاد با NLP پیشرفته کاهش میدهد، که قبلاً برای آموزش LLM خود با هزینههای محاسباتی/دادهای بالایی مواجه بودند.
2. برنامههای کاربردی جدید: DeepMind با منبعدهی باز نقاط بازرسی از پیش آموزشدیده و تنظیمشده، توسعه آسانتر برنامههای مفید را در زمینههایی مانند آموزش، علم و دسترسی امکانپذیر میسازد.
3. سفارشی سازی: توسعه دهندگان می توانند Gemma را برای کاربردهای صنعتی یا دامنه خاص از طریق آموزش مداوم در مورد داده های اختصاصی سفارشی کنند.
4. تحقیق: مدلهای باز مانند Gemma شفافیت و ممیزی بیشتر سیستمهای NLP فعلی را تقویت میکنند و جهتهای تحقیقاتی آینده را روشن میکنند.
5. نوآوری: در دسترس بودن مدل های پایه قوی مانند Gemma پیشرفت را در زمینه هایی مانند کاهش تعصب، واقعیت و ایمنی هوش مصنوعی تسریع می کند.
DeepMind امیدوار است با ارائه قابلیتهای Gemma به همه از طریق منبع باز، توسعه مسئولانه هوش مصنوعی را برای منافع اجتماعی تحریک کند.
جاده پیش رو
با هر جهش در هوش مصنوعی، ما به مدلهایی نزدیکتر میشویم که در همه حوزهها با هوش انسانی رقابت میکنند یا از آن فراتر میروند. سیستمهایی مانند Gemma تاکید میکنند که چگونه پیشرفتهای سریع در مدلهای خود نظارتی، قابلیتهای شناختی پیشرفتهتر را باز میکند.
با این حال، کار برای بهبود قابلیت اطمینان، تفسیرپذیری و کنترلپذیری هوش مصنوعی باقی مانده است – حوزههایی که هوش انسانی همچنان در آنها حکمفرماست. حوزههایی مانند ریاضیات این شکافهای پایدار را برجسته میکنند، به طوری که Gemma در MMLU 64 درصد در مقایسه با عملکرد انسانی 89 درصد تخمین زده میشود.
از بین بردن این شکافها در عین حصول اطمینان از ایمنی و اخلاقیات سیستمهای هوش مصنوعی با توانایی هر چه بیشتر چالشهای اصلی در سالهای آینده خواهد بود. ایجاد تعادل مناسب بین باز بودن و احتیاط بسیار مهم خواهد بود، زیرا هدف DeepMind دموکراتیک کردن دسترسی به مزایای هوش مصنوعی در عین مدیریت خطرات در حال ظهور است.
ابتکارات برای ارتقای ایمنی هوش مصنوعی - مانند ANC Dario Amodei، تیم اخلاق و جامعه DeepMind، و Constitutional AI Anthropic - نشان دهنده شناخت روزافزون این نیاز به نکات ظریف است. پیشرفت معنادار مستلزم گفتگوی باز و مبتنی بر شواهد بین محققان، توسعهدهندگان، سیاستگذاران و مردم است.
اگر به طور مسئولانه پیمایش شود، جما نشان دهنده قله هوش مصنوعی نیست، بلکه یک اردوگاه پایه برای نسل بعدی محققان هوش مصنوعی است که ردپای DeepMind را به سمت هوش عمومی مصنوعی منصفانه و مفید دنبال میکنند.
نتیجه
انتشار مدلهای Gemma توسط DeepMind نشاندهنده عصر جدیدی برای هوش مصنوعی منبع باز است - دورهای که از معیارهای محدود به قابلیتهای اطلاعاتی تعمیمیافته فراتر میرود. Gemma که به طور گسترده برای ایمنی آزمایش شده و به طور گسترده در دسترس است، استاندارد جدیدی را برای منبع باز مسئولانه در هوش مصنوعی تعیین می کند.
با یک روحیه رقابتی که با ارزشهای تعاونی تعدیل شده است، به اشتراک گذاشتن پیشرفتهایی مانند Gemma همه قایقها را در اکوسیستم هوش مصنوعی بالا میبرد. اکنون کل جامعه به یک خانواده همه کاره LLM برای هدایت یا حمایت از ابتکارات آنها دسترسی دارد.
در حالی که خطرات باقی مانده است، تلاش فنی و اخلاقی DeepMind این اطمینان را ایجاد می کند که مزایای Gemma بیشتر از مضرات بالقوه آن است. همانطور که قابلیت های هوش مصنوعی هر چه بیشتر پیشرفت می کنند، حفظ این تفاوت بین باز بودن و احتیاط بسیار مهم خواهد بود.
جما ما را یک قدم به هوش مصنوعی نزدیکتر میکند که به نفع تمام بشریت است. اما بسیاری از چالشهای بزرگ هنوز در مسیر رسیدن به هوش عمومی مصنوعی خیرخواهانه در انتظار هستند. اگر محققان هوش مصنوعی، توسعه دهندگان و جامعه در کل بتوانند پیشرفت مشترک خود را حفظ کنند، ممکن است روزی جما به عنوان یک کمپ پایه تاریخی به جای نشست نهایی دیده شود.