شیائومی، شرکت چینی که در حوزه فناوری و هوش مصنوعی بسیار فعال است، اخیراً با معرفی MiMo-7B به طور آرام و بدون سر و صدا وارد دنیای مدلهای زبانی بزرگ شده است. این مدل هوش مصنوعی نه تنها متنباز است، بلکه برای عموم قابل دسترسی است. MiMo-7B توسط تیم مرکزی مدل بزرگ شیائومی توسعه یافته و به ویژه روی وظایف سنگین استدلالی متمرکز شده است. این مدل در زمینههایی مثل استدلال ریاضی و تولید کد، عملکردی فوقالعاده ارائه میدهد و حتی از رقبای بزرگی مثل OpenAI و Alibaba پیشی میگیرد.
MiMo-7B چیست و چرا منحصر به فرد است؟
همانطور که از نام آن مشخص است، MiMo-7B یک مدل زبانی است که شامل ۷ میلیارد پارامتر است. این تعداد پارامتر نسبت به بسیاری از مدلهای زبانی بزرگ (مثل LLMهای معروف) کوچکتر است. با این حال، شیائومی ادعا میکند که عملکرد این مدل با سیستمهای بزرگتری مثل o1-mini از OpenAI و Qwen-32B-Preview از Alibaba برابری میکند. این برابری به خصوص در وظایفی مثل استدلال هوش مصنوعی مشهود است.
ستون فقرات MiMo-7B
پشت MiMo-7B یک برنامه آموزشی پیشرفته و دقیق قرار دارد. شیائومی برای آموزش این مدل، یک مجموعه داده بسیار متراکم از ۲۰۰ میلیارد توکن استدلال جمعآوری کرده است. این دادهها در مجموع شامل ۲۵ تریلیون توکن هستند که در سه مرحله مختلف آموزشی به مدل ارائه شدهاند. این مراحل شامل:
- آموزش اولیه : جایی که مدل با دادههای اصلی آشنا میشود.
- آموزش دقیقتر (Fine-tuning) : جایی که مدل برای وظایف خاص آموزش داده میشود.
- یادگیری تقویتی (Reinforcement Learning) : جایی که مدل با استفاده از پاداشها و بازخوردها بهبود مییابد.
یکی از ویژگیهای جالب MiMo-7B این است که به جای استفاده از روشهای معمول پیشبینی توکن بعدی (Next Token Prediction)، از یک روش پیشبینی چندتوکنی استفاده میکند. این رویکرد زمان استنتاج (Inference) را کوتاهتر میکند، بدون اینکه کیفیت خروجی کاهش یابد. این موضوع به ویژه در محیطهایی که سرعت و کارایی مهم است، مزیت بزرگی محسوب میشود.
فرآیند پس از آموزش
فرآیند پس از آموزش MiMo-7B نیز بسیار پیشرفته است. شیائومی از تکنیکهایی مثل یادگیری تقویتی و بهبود زیرساختها استفاده کرده است. برای مثال، این شرکت از یک الگوریتم سفارشی به نام Test Difficulty Driven Reward استفاده کرده است. این الگوریتم به حل مشکل سیگنالهای پاداش پراکنده کمک میکند، که اغلب در وظایف یادگیری تقویتی با الگوریتمهای پیچیده دیده میشود.
علاوه بر این، شیائومی روشی به نام Easy Data Re-Sampling را برای تثبیت آموزش اعمال کرده است. این روش باعث میشود که مدل در طول فرآیند آموزش، بهتر و سریعتر یاد بگیرد.
بهبود زیرساختها
شیائومی همچنین یک سیستم اجرای یکپارچه به نام Seamless Rollout ساخته است. این سیستم به کاهش زمان از کار افتادن پردازندههای گرافیکی (GPU) در طول آموزش و اعتبارسنجی کمک میکند. نتایج داخلی شرکت نشان میدهد که این سیستم باعث بهبود ۲.۲۹ برابری در سرعت آموزش و تقریباً ۲ برابری در عملکرد اعتبارسنجی شده است.
همچنین، موتور راهاندازی این مدل به گونهای طراحی شده است که بتواند از استراتژیهای استنتاج مانند پیشبینی چندتوکنی در محیطهای vLLM پشتیبانی کند.
نسخههای مختلف MiMo-7B
MiMo-7B در چهار نسخه مختلف منتشر شده است:
- پایه (Base) : این نسخه مدل خام و از پیش آموزش دیده است که هیچ تنظیمات اضافی ندارد.
- SFT : این نسخه با استفاده از دادههای نظارتشده تنظیم دقیق شده است.
- RL-Zero : این نسخه از یادگیری تقویتی استفاده میکند، اما از ابتدا شروع میشود.
- RL : این نسخه دقیقترین است و بر اساس نسخه SFT ساخته شده است. شیائومی معتقد است که این نسخه بالاترین دقت را ارائه میدهد.
عملکرد MiMo-7B در بنچمارکها
شیائومی ادعا میکند که MiMo-7B در بنچمارکهای مختلف عملکرد خوبی دارد. برای مثال:
- در زمینه ریاضی، نسخه MiMo-7B-RL در مجموعه دادههای MATH-500 امتیاز ۹۵.۸٪ و در مجموعه دادههای AIME 2024 بیش از ۶۸٪ کسب کرده است.
- در زمینه تولید کد، این مدل در LiveCodeBench v5 امتیاز ۵۷.۸٪ و در نسخه ۶ حدود ۵۰٪ کسب کرده است.
- در وظایف دانش عمومی مانند DROP ، MMLU-Pro و GPQA ، امتیازها در محدوده ۵۰٪ تا ۶۰٪ قرار دارند. این امتیازها برای یک مدل ۷ میلیارد پارامتری قابل احترام است، اما چیز انقلابیای نیست.
دسترسی به MiMo-7B
MiMo-7B اکنون تحت مجوز متنباز در پلتفرم Hugging Face موجود است. همچنین، تمام مستندات پشتیبانی و نقاط بررسی مدل را میتوانید در GitHub بررسی کنید. این امر به کاربران اجازه میدهد تا به راحتی از این مدل استفاده کرده و آن را بهبود دهند.
جمعبندی
MiMo-7B یک مدل هوش مصنوعی متنباز و کاربردی است که با وجود تعداد پارامترهای کمتر، عملکردی قابل مقایسه با مدلهای بزرگتر دارد. این مدل به ویژه در زمینههای استدلال ریاضی و تولید کد برجسته است و توسط شیائومی با استفاده از تکنیکهای پیشرفته آموزش داده شده است. اکنون، این مدل به صورت متنباز در دسترس عموم قرار دارد و میتواند توسط توسعهدهندگان و علاقهمندان به هوش مصنوعی استفاده شود.
پرسشهای متداول (FAQ)
۱. MiMo-7B چه تفاوتی با مدلهای بزرگتر مثل GPT دارد؟
پاسخ: MiMo-7B فقط ۷ میلیارد پارامتر دارد، در حالی که مدلهایی مثل GPT دارای تعداد بسیار بیشتری پارامتر هستند. با این حال، MiMo-7B با استفاده از تکنیکهای پیشرفته آموزشی و زیرساختهای بهینهشده، عملکردی قابل مقایسه با مدلهای بزرگتر ارائه میدهد.
۲. آیا MiMo-7B برای توسعهدهندگان آزادانه قابل استفاده است؟
پاسخ: بله، MiMo-7B تحت مجوز متنباز منتشر شده است و هر کسی میتواند از آن استفاده کند. این مدل در پلتفرمهایی مثل Hugging Face و GitHub قابل دسترسی است.
۳. MiMo-7B در چه زمینههایی بهترین عملکرد را دارد؟
پاسخ: این مدل به ویژه در وظایف استدلال ریاضی و تولید کد عملکرد عالی دارد. همچنین در وظایف دانش عمومی نیز نتایج قابل قبولی ارائه میدهد.