مایکروسافت به تازگی مدل جدیدی از زبان سبک وزن خود به نام Phi-3 Mini معرفی کرده است. این مدل جزو سه مدل کوچک هوش مصنوعی است که طراحی شدهاند تا عملکرد پیشرفتهای داشته باشند و در عین حال اندازهای کوچک داشته باشند که بتوانند به طور کارآمد در دستگاههای با منابع محاسباتی محدود اجرا شوند. با تنها 3.8 میلیارد پارامتر، Phi-3 Mini اندازهای کوچکتر از مدلهای بزرگ هوش مصنوعی مثل GPT-4 دارد، اما وعده میدهد که در زمینههای کلیدی متناسب با عملکرد آنها باشد.
توسعه Phi-3 Mini نشان میدهد که تلاشها برای دموکراتیزه کردن قابلیتهای پیشرفته هوش مصنوعی در حال رسیدن به نقطه عطفی مهم هستند، زیرا این مدل در دسترسی به طیف گستردهتری از سختافزارها تلاش میکند. اندازه کوچک آن این امکان را فراهم میکند که به صورت محلی بر روی تلفنهای هوشمند، تبلتها و سایر دستگاههای لبه استفاده شود و در عین حال نگرانیهای مرتبط با تاخیر و حریم خصوصی مدلهای بر پایه ابر را کاهش دهد. این قابلیتهای جدید بازار را برای تجربههای هوشمند در زمینههای مختلف مانند دستیاران مجازی، هوش مصنوعی مکالمهای، دستیاران کدنویسی و وظایف درک زبان باز میکند.
معماری و آموزش :
در هسته خود، Phi-3 Mini از یک مدل رمزگشای ترانسفورماتور استفاده میکند که بر پایه معماری مشابه مدل منبع باز Llama-2 ساخته شده است. این مدل دارای 32 لایه، 3072 بعد پنهان و 32 سر توجه با طول زمینه پیشفرض 4000 توکن است. همچنین، مایکروسافت نسخهای با نام Phi-3 Mini-128K را معرفی کرده است که با استفاده از تکنیکهایی مانند LongRope، طول زمینه را به 128000 توکن افزایش میدهد.
اما چیزی که Phi-3 Mini را ویژه میکند، روش آموزشی آن است. مایکروسافت به جای اعتماد به نیروی بیرحم مجموعه دادههای عظیم و قدرت محاسباتی، بر تولید یک مجموعه دادهآموزشی با کیفیت بالا و با استدلال متراکم تمرکز کرده است. این دادهها از دادههای وب با دقت فیلتر شدهاند و همچنین از دادههای مصنوعی که توسط مدلهای زبان بزرگتر تولید شدهاند، تشکیل شدهاند.
فرآیند آموزش از یک رویکرد دومرحلهای پیروی میکند. در مرحله اول، مدل در معرض طیف گستردهای از منابع وب قرار میگیرد که هدف آن آموزش دانش عمومی و درک زبان است. در فاز دوم، دادههای وب فیلتر شدهتر با دادههای مصنوعی که برای انتقال مهارتهای استدلال منطقی و تخصص حوزه تخصصی طراحی شدهاند، ترکیب میشوند.
این رویکرد توسط مایکروسافت به عنوان "رژیم بهینه داده" نامیده شده است، که یک انحراف از رژیمهای سنتی مانند "رژیم بهینه محاسبه" یا "رژیم آموزش بیش از حد" است. هدف این رویکرد، کالیبره کردن دادههای آموزشی برای مطابقت با مقیاس مدل، ارائه سطح مناسب دانش و توانایی استدلال، و در عین حال باقی گذاشتن ظرفیت کافی برای سایر قابلیتهاست.
این رویکرد دادهمحور به نتایج قابل توجهی منجر شده است، زیرا Phi-3 Mini در طیف گستردهای از معیارهای آکادمیک عملکرد قابل توجهی از خود نشان میدهد. این عملکرد غالباً با مدلهای بسیار بزرگتر رقابت میکند یا از آنها پیشی میگیرد. به عنوان مثال، این مدل امتیاز 69% را در معیار MMLU برای یادگیری و درک چند کار کسب کرده است، و همچنین امتیاز 8.38 را در MT-bench برای استدلال ریاضی کسب کرده است - نتایجی که با مدلهایی مانند Mixtral 8x7B و GPT-3.5 برابری میکند.
ایمنی و استحکام :
در کنار عملکرد چشمگیر خود، مایکروسافت تاکید زیادی بر ایمنی و استحکام در توسعه Phi-3 Mini داشته است. این مدل تحت یک فرآیند سخت پس از آموزش شامل تنظیم دقیق نظارت شده (SFT) و بهینهسازی اولویت مستقیم (DPO) قرار گرفته است.
مرحله SFT از دادههای بسیار مدیریت شده در حوزههای مختلف، از جمله ریاضیات، کدگذاری، استدلال، مکالمه، هویت مدل و ایمنی استفاده میکند. این کمک میکند تا قابلیتهای مدل در این زمینهها تقویت شود و در عین حال حس هویت و رفتار اخلاقی قوی را القا کند.
از سوی دیگر، مرحله DPO بر روی هدایت مدل از رفتارهای ناخواسته با استفاده از پاسخهای رد شده به عنوان مثالهای منفی تمرکز دارد. این فرآیند دادههای قالب چت، وظایف استدلال، و تلاشهای مسئولیت هوش مصنوعی (RAI) را پوشش میدهد و اطمینان میدهد که Phi-3 Mini به اصول هوش مصنوعی اخلاقی و قابل اعتماد مایکروسافت پایبند است.
برای افزایش بیشتر مشخصات ایمنی، Phi-3 Mini تحت آزمایشهای گسترده قرمز و خودکار در دهها دستهی آسیب RAI قرار گرفته است. یک تیم قرمز مستقل در مایکروسافت به طور مکرر مدل را مورد بررسی قرار داده و زمینههای بهبود را شناسایی کرده، که سپس از طریق مجموعه دادههای انتخاب شده اضافی و آموزش مجدد مورد بررسی قرار گرفته است.
این رویکرد چند جانبه، همانطور که توسط معیارهای RAI داخلی مایکروسافت نشان داده شده است، به طور قابل توجهی بروز پاسخهای مضر، عدم دقت واقعی و سوگیریها را کاهش داده است. به عنوان مثال، مدل نرخ نقص پایینی را برای ادامه محتوای مضر (0.75٪) و خلاصهسازی (10٪) و همچنین نرخ پایین بیپایه بودن (0.603) نشان میدهد، که نشان میدهد پاسخهای آن کاملاً در زمینه داده شده ریشه دارند.
کاربردها و موارد استفاده :
Phi-3 Mini با عملکرد برجسته و توجه به ایمنی، برای بسیاری از موارد کاربردی مناسب است، به ویژه در محیطهای با منابع محدود و سناریوهایی که به تأخیر حساس هستند.
یکی از جذابترین کاربردها، استفاده از دستیارهای مجازی هوشمند و هوش مصنوعی بر روی تلفنهای همراه است. این دستیارها میتوانند به صورت محلی بدون اتصال به اینترنت، پاسخهای سریع را ارائه دهند و در عین حال اطمینان حاصل کنند که اطلاعات حساس روی دستگاه باقی میماند و حریم خصوصی رعایت میشود.
قابلیت استدلال قوی Phi-3 Mini آن را به یک ابزار مفید برای کمک در کدنویسی و حل مسائل ریاضی تبدیل کرده است. توسعهدهندگان و دانشآموزان میتوانند از آن برای تکمیل کدها، تشخیص خطاها و توضیح فرآیندهای توسعه و یادگیری استفاده کنند.
علاوه بر این، توانایی تطبیق مدل در زمینههایی مانند درک زبان، خلاصهسازی متن و پاسخ به سؤالات، فرصتهایی جدید ارائه میدهد. اندازه کوچک و کارایی بالای آن، امکان استفاده از آن در محیطهای مختلف از لوازم خانگی هوشمند تا سیستمهای اتوماسیون صنعتی را فراهم میسازد.
نگاهی به آینده این هوش مصنوعی :
در حالی که Phi-3 Mini به خودی خود دستاوردی قابل توجه است، اما مایکروسافت برنامههای بزرگتری برای خانواده Phi-3 دارد. این شرکت پیشنمایش دو مدل بزرگتر به نام Phi-3 Small (7 میلیارد پارامتر) و Phi-3 Medium (14 میلیارد پارامتر) را ارائه کرده است که انتظار میرود هر دو مرزهای عملکرد را برای مدلهای زبان فشرده بهبود بخشند.
Phi-3 Small از یک توکنایزر پیشرفته (tiktoken) و یک مکانیسم توجه گروهبندیشده، همراه با یک لایه توجه جدید، برای بهینهسازی حافظه خود و حفظ عملکرد بازیابی متن طولانی استفاده میکند. همچنین 10 درصد از دادههای چندزبانه اضافی را در خود جای داده و قابلیتهای آن را در درک زبان و تولید در چندین زبان افزایش میدهد.
Phi-3 Medium با 40 لایه، 40 سر توجه و ابعاد تعبیه شده 5120، یک گام قابل توجه در مقیاس را نشان میدهد. مایکروسافت اشاره میکند که برخی از معیارها ممکن است برای استفاده کامل از این ظرفیت افزایش یافته نیاز به اصلاح بیشتر ترکیب دادههای آموزشی داشته باشند، اما نتایج اولیه امیدوارکننده هستند، با پیشرفتهای قابل توجهی نسبت به Phi-3 Mini در وظایفی مانند MMLU، TriviaQA و HumanEval.
محدودیت ها و مسیرهای آینده :
با وجود تواناییهای چشمگیر، Phi-3 Mini همانند دیگر مدلهای زبان، محدودیتهایی دارد. یکی از نقاط ضعف برجسته آن، ظرفیت نسبتاً محدود برای ذخیره دانش واقعی است، که عملکرد پایین آن در معیارهایی مانند TriviaQA نشان میدهد.
اما، مایکروسافت بر این باور است که این محدودیت را میتوان با تقویت مدل با قابلیتهای موتور جستجو کاهش داد و به آن اجازه داد تا اطلاعات مربوطه را بر اساس درخواست بازیابی و استدلال کند. این رویکرد در Hugging Face Chat-UI نشان داده شده است، جایی که Phi-3 Mini میتواند از جستجو برای بهبود پاسخهای خود استفاده کند.
یکی دیگر از زمینههای بهبود، قابلیتهای چندزبانه مدل است. در حالی که Phi-3 Small گامهای اولیه را با ترکیب دادههای چندزبانه اضافی برداشته است، برای باز کردن کامل پتانسیل این مدلهای فشرده برای کاربردهای چند زبانه، کار بیشتری لازم است.
در آینده، مایکروسافت متعهد به پیشرفت مداوم مدلهای خانواده Phi، رفع محدودیتها و گسترش قابلیتها است. این ممکن است شامل اصلاحات بیشتر در دادهها و روششناسی آموزشی و همچنین کاوش در معماریها و تکنیکهای جدید باشد که بهطور خاص برای مدلهای زبان فشرده و با کارایی بالا طراحی شدهاند.
نتیجه گیری :
Phi-3 Mini مایکروسافت نماد یک جهش به سوی دموکراتیک کردن قابلیتهای پیشرفته هوش مصنوعی است. با ارائه عملکرد پیشرفته در یک بسته فشرده و کم مصرف، این مدل امکانات جدیدی را برای تجارب هوشمند روی دستگاه در طیف گستردهای از برنامهها باز میکند.
رویکرد آموزشی نوآورانه این مدل، که بر دادههای باکیفیت و استدلال متراکم بیش از توان محاسباتی محض تأکید دارد، نشان داده است که بازی را تغییر میدهد و Phi-3 Mini را قادر میسازد تا به خوبی بالاتر از کلاس وزنی خود حرکت کند. همراه با اقدامات ایمنی قوی و تلاشهای توسعه مداوم، خانواده مدلهای Phi-3 نقش مهمی در شکلدهی آینده سیستمهای هوشمند ایفا میکند و هوش مصنوعی را در دسترستر، کارآمدتر و قابل اعتمادتر از همیشه میکند.
همچنین، تعهد مایکروسافت به مدلهای سبک وزن و با کارایی بالا مانند Phi-3 Mini، نشاندهنده انحراف تازهای از عقل مرسوم «بزرگتر، بهتر» است. با نشان دادن اینکه اندازه همه چیز نیست، Phi-3 Mini این پتانسیل را دارد که موج جدیدی از نوآوری را با تمرکز بر به حداکثر رساندن ارزش و تأثیر هوش مصنوعی از طریق مدیریت هوشمند داده، طراحی مدل متفکرانه و شیوههای توسعه مسئولانه الهام بخشد.