گوگل اخیراً از نسخهی جدیدی از مدلهای زبانی خود به نام Gemma 2 رونمایی کرده است. این مدل جدید در دو اندازهی 9 میلیارد (9B) و 27 میلیارد (27B) پارامتر موجود است.
در مقایسه با نسخهی قبلی خود یعنی Gemma، Gemma 2 عملکرد بهتر و سرعت استنتاج بیشتری دارد. این مدل جدید بر اساس مدلهای Gemini گوگل طراحی شده و در دسترس محققان و توسعهدهندگان قرار گرفته است تا بتوانند از پیشرفتهای آن در سرعت و کارایی بهره ببرند.
برخلاف مدلهای چند زبانه و چند وجهی Gemini، Gemma 2 تنها بر پردازش زبان متمرکز است. در این گزارش، ویژگیهای برجسته و پیشرفتهای Gemma 2 را بررسی کرده و آن را با نسخههای قبلی و سایر رقبا مقایسه خواهیم کرد. همچنین موارد استفاده و چالشهای مربوط به این مدل جدید را نیز مطرح میکنیم.
ساختار gemma 2
مانند مدلهای قبلی خود، مدلهای Gemma 2 تنها بخش رمزگشا (decoder) را دارند و بر پایه معماری ترانسفورماتور ساخته شدهاند. مدل 27B بر روی 13 تریلیون واحد دادهای که عمدتاً به زبان انگلیسی هستند آموزش دیده، در حالی که مدل 9B از 8 تریلیون واحد داده و مدل 2.6B از 2 تریلیون واحد داده استفاده کردهاند. این واحدهای داده از منابع مختلفی مانند اسناد وب، کدها و مقالات علمی جمعآوری شدهاند. این مدلها از همان توکنساز (tokenizer) Gemma 1 و Gemini استفاده میکنند که باعث ثبات در پردازش دادهها میشود.
Gemma 2 با استفاده از روشی به نام "تقطیر دانش" (knowledge distillation) که در آن از احتمالات خروجی یک مدل بزرگتر و از قبل آموزش دیده استفاده میکند، آموزش داده شده است. پس از آموزش اولیه، مدلها از طریق فرآیندی به نام "تنظیم دستورالعمل" (fine-tuning) تنظیم میشوند. این فرآیند با "تنظیم دقیق نظارت شده" (Supervised Fine-Tuning) روی ترکیبی از جفتهای پاسخ سریع متن انگلیسی مصنوعی و تولید شده توسط انسان شروع میشود. پس از آن، "یادگیری تقویتی با بازخورد انسانی" (Reinforcement Learning with Human Feedback) برای بهبود عملکرد کلی اعمال میشود.
بهبود عملکرد و کارایی در سخت افزار مختلف با gemma 2
Gemma 2 نه تنها بهتر از نسخه قبلی خود عمل می کند، بلکه با مدل های دو برابر خود نیز رقابت می کند. این طراحی شده است تا در انواع مختلف سخت افزارها مانند لپتاپ، کامپیوتر رومیزی، دستگاه های اینترنت اشیا و گوشی های هوشمند به خوبی کار کند.
Gemma 2 که برای واحدهای گرافیکی و TPU بهینه سازی شده است، کارایی بیشتری نسبت به نسخه قبلی خود دارد، به خصوص در دستگاه هایی که منابع محدودی دارند. برای مثال، مدل 27B در اجرای استنتاج روی یک GPU NVIDIA H100 Tensor Core یا میزبان TPU بهتر عمل می کند و گزینه مقرون به صرفه ای برای توسعه دهندگانی است که به عملکرد بالا نیاز دارند اما نمی توانند هزینه زیادی برای سخت افزار بپردازند.
علاوه بر این، Gemma 2 امکانات پیشرفته تنظیم را در طیف گسترده ای از پلتفرم ها و ابزارها به توسعه دهندگان ارائه می دهد. چه از راه حل های ابری مانند Google Cloud استفاده شود یا از پلتفرم های محبوبی مانند Axolotl، Gemma 2 گزینه های تنظیم دقیق گسترده ای را فراهم می کند. همچنین، امکان ادغام با پلتفرم هایی مانند Hugging Face، NVIDIA TensorRT-LLM و JAX و Keras گوگل به محققان و توسعه دهندگان این امکان را می دهد تا به عملکرد بهینه و استقرار کارآمد در پیکربندی های سخت افزاری مختلف دست یابند.
مقایسه gemma2 با liama 3
هنگام مقایسه مدل زبان Gemma 2 و Llama 3 70B، هر دو در دسته مدلهای منبع باز قرار دارند. محققان گوگل ادعا میکنند که علی رغم اینکه Gemma 2 27B اندازه بسیار کوچکتری دارد، اما عملکرد قابل مقایسهای با Llama 3 70B ارائه میدهد. علاوه بر این، Gemma 2 9B در معیارهای مختلف مانند درک زبان، کدنویسی و حل مسائل ریاضی به طور مداوم عملکرد بهتری نسبت به Llama 3 8B دارد.
یکی از مزایای برجسته Gemma 2 در مقایسه با Llama 3 از Meta، مدیریت بهتر زبانهای هندی است. Gemma 2 به دلیل داشتن توکنسازی اختصاصی برای این زبانها و نیز داشتن واژگان بزرگ 256 هزار توکنی برای ثبت تفاوتهای زبانی، در این زمینه برتری دارد. در مقابل، Llama 3 علی رغم پشتیبانی از تعداد زیادی زبان، به دلیل محدودیت در واژگان و دادههای آموزشی، با چالشهایی در توکنسازی برای اسکریپتهای هندی مواجه است. این موضوع Gemma 2 را در کارهای مربوط به زبانهای هندی برتر میکند و گزینه مناسبتری برای توسعهدهندگان و محققان فعال در این حوزهها مینماید.
موارد استفاده
اینطور است که بر اساس ویژگی های خاص و عملکرد برجسته مدل Gemma 2، موارد استفاده عملی مهمی برای آن شناسایی شده است:
دستیارهای چند زبانه: Gemma 2 دارای توکنایزر تخصصی برای زبان های مختلف، به ویژه زبان های هندی است. این ویژگی آن را به ابزاری مؤثر برای توسعه دستیارهای چند زبانه تبدیل می کند که به کاربران زبان های مختلف خدمات ارائه می دهند. چه در مواردی مانند جستجوی اطلاعات به زبان هندی، تولید محتوای آموزشی به زبان اردو، ایجاد محتوای بازاریابی به زبان عربی یا نوشتن مقالات تحقیقاتی به زبان بنگالی، Gemma 2 به توسعه دهندگان قدرت می بخشد که محتوای خود را به شیوه ای تولید کنند که با مخاطبان هدف خود هماهنگ باشد. یک مثال واقعی از این کاربرد، دستیار چند زبانه Navarasa است که بر اساس Gemma 2 ساخته شده و از 9 زبان هندی پشتیبانی می کند.
ابزارهای آموزشی: Gemma 2 با توانایی حل مسائل ریاضی پیچیده و درک پرس و جوهای زبانی پیچیده، می تواند برای ایجاد سیستم های آموزشی هوشمند و برنامه های آموزشی که تجربیات یادگیری شخصی را ارائه می دهند، مورد استفاده قرار گیرد.
کدگذاری و کمک کد: مهارت Gemma 2 در معیارهای کدنویسی کامپیوتری، پتانسیل آن را به عنوان ابزاری قدرتمند برای تولید کد، تشخیص اشکالات و بررسی خودکار کد نشان می دهد. همچنین، توانایی آن در عملکرد موثر در دستگاه های با منابع محدود، به توسعه دهندگان اجازه می دهد تا آن را به طور یکپارچه در محیط های توسعه خود بگنجانند.
Retrieval Augmented Generation (RAG): قدرت Gemma 2 در معیارهای استنتاج مبتنی بر متن، آن را برای توسعه سیستم های RAG در زمینه های مختلف مناسب می سازد. این قابلیت می تواند در زمینه های مختلفی کاربرد داشته باشد، از مراقبت های بهداشتی که از ترکیب اطلاعات بالینی پشتیبانی می کند، تا سیستم های هوش مصنوعی قانونی که به ارائه مشاوره حقوقی کمک می کنند، توسعه ربات های گفتگوی هوشمند برای پشتیبانی از مشتری و ایجاد ابزارهای آموزشی شخصی.
محدودیت ها و چالش ها
اگرچه Gemma 2 پیشرفتهای قابلتوجهی نشان میدهد، با محدودیتها و چالشهایی هم روبهرو است. مهمترین این مشکلات مربوط به کیفیت و تنوع دادههای آموزشی آن است.
Gemma 2 علیرغم پشتیبانی از زبانهای مختلف، فاقد آموزش ویژه برای قابلیتهای چند زبانه است و برای کار مؤثر با زبانهای دیگر نیاز به تنظیمات دقیق دارد. این مدل در انجام وظایف واضح و ساختارمند خوب عمل میکند، اما با وظایف باز یا پیچیده و همچنین تفاوتهای ظریف زبانی مانند طعنه یا عبارات مجازی دچار مشکل میشود.
دقت واقعی Gemma 2 همیشه قابل اعتماد نیست و ممکن است اطلاعات منسوخ یا نادرست تولید کند. همچنین ممکن است در برخی زمینهها فاقد استدلال منطقی باشد. تلاشهایی برای رفع مشکل تولید اطلاعات نادرست در زمینههایی مانند پزشکی و CBRN انجام شده است، اما در حوزههای کمتر تصفیهشده مانند امور مالی هنوز این خطر وجود دارد.
نتیجه گیری
مدل زبان منبع باز جدیدی به نام "جما ۲" معرفی شده است که پیشرفتهای قابل توجهی داشته است. این مدل جدید عملکرد و سرعت بهتری نسبت به نسخه قبلی خود دارد و برای تنظیمات سختافزاری مختلف مناسب است. حتی بدون سرمایهگذاری زیاد روی سختافزار هم میتوان از آن استفاده کرد.
با این وجود، هنوز چالشهایی در زمینه انجام وظایف ظریف زبانی و اطمینان از دقت در سناریوهای پیچیده وجود دارد. این مدل برای برنامههایی مانند مشاوره حقوقی و ابزارهای آموزشی مفید است، اما توسعهدهندگان باید به محدودیتهای آن در قابلیتهای چندزبانه و مسائل احتمالی در زمینههای حساس توجه داشته باشند.
به طور کلی، "جما ۲" یک گزینه ارزشمند برای توسعهدهندگانی است که به دنبال راهحلهای قابل اعتماد پردازش زبان هستند، اگرچه نیاز به بررسی و آگاهی از محدودیتهای آن وجود دارد.
علاوه بر این، علیرغم کنترلهایی برای جلوگیری از تولید محتوای غیراخلاقی مانند سخنان مشوق عداوت و تنفر یا تهدیدات امنیت سایبری، همچنان خطر سوء استفاده در سایر حوزهها وجود دارد. در نهایت، Gemma 2 فقط مبتنی بر متن است و از پردازش دادههای چندوجهی پشتیبانی نمیکند.