شیائومی MiMo-7B هوش مصنوعی جدید

  • 1404/2/13
  • چت بات ها
  • 104
  • 0
  • 0
image

شیائومی، شرکت چینی که در حوزه فناوری و هوش مصنوعی بسیار فعال است، اخیراً با معرفی MiMo-7B به طور آرام و بدون سر و صدا وارد دنیای مدل‌های زبانی بزرگ شده است. این مدل هوش مصنوعی نه تنها متن‌باز است، بلکه برای عموم قابل دسترسی است. MiMo-7B توسط تیم مرکزی مدل بزرگ شیائومی توسعه یافته و به ویژه روی وظایف سنگین استدلالی متمرکز شده است. این مدل در زمینه‌هایی مثل استدلال ریاضی و تولید کد، عملکردی فوق‌العاده ارائه می‌دهد و حتی از رقبای بزرگی مثل OpenAI و Alibaba پیشی می‌گیرد.

MiMo-7B چیست و چرا منحصر به فرد است؟

همان‌طور که از نام آن مشخص است، MiMo-7B یک مدل زبانی است که شامل ۷ میلیارد پارامتر است. این تعداد پارامتر نسبت به بسیاری از مدل‌های زبانی بزرگ (مثل LLM‌های معروف) کوچک‌تر است. با این حال، شیائومی ادعا می‌کند که عملکرد این مدل با سیستم‌های بزرگ‌تری مثل o1-mini از OpenAI و Qwen-32B-Preview از Alibaba برابری می‌کند. این برابری به خصوص در وظایفی مثل استدلال هوش مصنوعی مشهود است.

ستون فقرات MiMo-7B

پشت MiMo-7B یک برنامه آموزشی پیشرفته و دقیق قرار دارد. شیائومی برای آموزش این مدل، یک مجموعه داده بسیار متراکم از ۲۰۰ میلیارد توکن استدلال جمع‌آوری کرده است. این داده‌ها در مجموع شامل ۲۵ تریلیون توکن هستند که در سه مرحله مختلف آموزشی به مدل ارائه شده‌اند. این مراحل شامل:

  1. آموزش اولیه : جایی که مدل با داده‌های اصلی آشنا می‌شود.
  2. آموزش دقیق‌تر (Fine-tuning) : جایی که مدل برای وظایف خاص آموزش داده می‌شود.
  3. یادگیری تقویتی (Reinforcement Learning) : جایی که مدل با استفاده از پاداش‌ها و بازخوردها بهبود می‌یابد.
 

یکی از ویژگی‌های جالب MiMo-7B این است که به جای استفاده از روش‌های معمول پیش‌بینی توکن بعدی (Next Token Prediction)، از یک روش پیش‌بینی چندتوکنی استفاده می‌کند. این رویکرد زمان استنتاج (Inference) را کوتاه‌تر می‌کند، بدون اینکه کیفیت خروجی کاهش یابد. این موضوع به ویژه در محیط‌هایی که سرعت و کارایی مهم است، مزیت بزرگی محسوب می‌شود.

فرآیند پس از آموزش

فرآیند پس از آموزش MiMo-7B نیز بسیار پیشرفته است. شیائومی از تکنیک‌هایی مثل یادگیری تقویتی و بهبود زیرساخت‌ها استفاده کرده است. برای مثال، این شرکت از یک الگوریتم سفارشی به نام Test Difficulty Driven Reward استفاده کرده است. این الگوریتم به حل مشکل سیگنال‌های پاداش پراکنده کمک می‌کند، که اغلب در وظایف یادگیری تقویتی با الگوریتم‌های پیچیده دیده می‌شود.

علاوه بر این، شیائومی روشی به نام Easy Data Re-Sampling را برای تثبیت آموزش اعمال کرده است. این روش باعث می‌شود که مدل در طول فرآیند آموزش، بهتر و سریع‌تر یاد بگیرد.

بهبود زیرساخت‌ها

شیائومی همچنین یک سیستم اجرای یکپارچه به نام Seamless Rollout ساخته است. این سیستم به کاهش زمان از کار افتادن پردازنده‌های گرافیکی (GPU) در طول آموزش و اعتبارسنجی کمک می‌کند. نتایج داخلی شرکت نشان می‌دهد که این سیستم باعث بهبود ۲.۲۹ برابری در سرعت آموزش و تقریباً ۲ برابری در عملکرد اعتبارسنجی شده است.

همچنین، موتور راه‌اندازی این مدل به گونه‌ای طراحی شده است که بتواند از استراتژی‌های استنتاج مانند پیش‌بینی چندتوکنی در محیط‌های vLLM پشتیبانی کند.

نسخه‌های مختلف MiMo-7B

MiMo-7B در چهار نسخه مختلف منتشر شده است:

  1. پایه (Base) : این نسخه مدل خام و از پیش آموزش دیده است که هیچ تنظیمات اضافی ندارد.
  2. SFT : این نسخه با استفاده از داده‌های نظارت‌شده تنظیم دقیق شده است.
  3. RL-Zero : این نسخه از یادگیری تقویتی استفاده می‌کند، اما از ابتدا شروع می‌شود.
  4. RL : این نسخه دقیق‌ترین است و بر اساس نسخه SFT ساخته شده است. شیائومی معتقد است که این نسخه بالاترین دقت را ارائه می‌دهد.

عملکرد MiMo-7B در بنچمارک‌ها

شیائومی ادعا می‌کند که MiMo-7B در بنچمارک‌های مختلف عملکرد خوبی دارد. برای مثال:

  • در زمینه ریاضی، نسخه MiMo-7B-RL در مجموعه داده‌های MATH-500 امتیاز ۹۵.۸٪ و در مجموعه داده‌های AIME 2024 بیش از ۶۸٪ کسب کرده است.
  • در زمینه تولید کد، این مدل در LiveCodeBench v5 امتیاز ۵۷.۸٪ و در نسخه ۶ حدود ۵۰٪ کسب کرده است.
  • در وظایف دانش عمومی مانند DROP ، MMLU-Pro و GPQA ، امتیازها در محدوده ۵۰٪ تا ۶۰٪ قرار دارند. این امتیازها برای یک مدل ۷ میلیارد پارامتری قابل احترام است، اما چیز انقلابی‌ای نیست.

دسترسی به MiMo-7B

MiMo-7B اکنون تحت مجوز متن‌باز در پلتفرم Hugging Face موجود است. همچنین، تمام مستندات پشتیبانی و نقاط بررسی مدل را می‌توانید در GitHub بررسی کنید. این امر به کاربران اجازه می‌دهد تا به راحتی از این مدل استفاده کرده و آن را بهبود دهند.

جمع‌بندی

MiMo-7B یک مدل هوش مصنوعی متن‌باز و کاربردی است که با وجود تعداد پارامترهای کمتر، عملکردی قابل مقایسه با مدل‌های بزرگ‌تر دارد. این مدل به ویژه در زمینه‌های استدلال ریاضی و تولید کد برجسته است و توسط شیائومی با استفاده از تکنیک‌های پیشرفته آموزش داده شده است. اکنون، این مدل به صورت متن‌باز در دسترس عموم قرار دارد و می‌تواند توسط توسعه‌دهندگان و علاقه‌مندان به هوش مصنوعی استفاده شود.

 

پرسش‌های متداول (FAQ)

۱. MiMo-7B چه تفاوتی با مدل‌های بزرگ‌تر مثل GPT دارد؟

پاسخ: MiMo-7B فقط ۷ میلیارد پارامتر دارد، در حالی که مدل‌هایی مثل GPT دارای تعداد بسیار بیشتری پارامتر هستند. با این حال، MiMo-7B با استفاده از تکنیک‌های پیشرفته آموزشی و زیرساخت‌های بهینه‌شده، عملکردی قابل مقایسه با مدل‌های بزرگ‌تر ارائه می‌دهد.

۲. آیا MiMo-7B برای توسعه‌دهندگان آزادانه قابل استفاده است؟

پاسخ: بله، MiMo-7B تحت مجوز متن‌باز منتشر شده است و هر کسی می‌تواند از آن استفاده کند. این مدل در پلتفرم‌هایی مثل Hugging Face و GitHub قابل دسترسی است.

۳. MiMo-7B در چه زمینه‌هایی بهترین عملکرد را دارد؟

پاسخ: این مدل به ویژه در وظایف استدلال ریاضی و تولید کد عملکرد عالی دارد. همچنین در وظایف دانش عمومی نیز نتایج قابل قبولی ارائه می‌دهد.

تگ ها