Phi-3 Mini ، هوش مصنوعی سبک وزن مایکروسافت

1403/2/22
چت بات ها
1621
0
0

مایکروسافت به تازگی مدل جدیدی از زبان سبک وزن خود به نام Phi-3 Mini معرفی کرده است. این مدل جزو سه مدل کوچک هوش مصنوعی است که طراحی شده‌اند تا عملکرد پیشرفته‌ای داشته باشند و در عین حال اندازه‌ای کوچک داشته باشند که بتوانند به طور کارآمد در دستگاه‌های با منابع محاسباتی محدود اجرا شوند. با تنها 3.8 میلیارد پارامتر، Phi-3 Mini اندازه‌ای کوچکتر از مدل‌های بزرگ هوش مصنوعی مثل GPT-4 دارد، اما وعده می‌دهد که در زمینه‌های کلیدی متناسب با عملکرد آنها باشد.

توسعه Phi-3 Mini نشان می‌دهد که تلاش‌ها برای دموکراتیزه کردن قابلیت‌های پیشرفته هوش مصنوعی در حال رسیدن به نقطه عطفی مهم هستند، زیرا این مدل در دسترسی به طیف گسترده‌تری از سخت‌افزارها تلاش می‌کند. اندازه کوچک آن این امکان را فراهم می‌کند که به صورت محلی بر روی تلفن‌های هوشمند، تبلت‌ها و سایر دستگاه‌های لبه استفاده شود و در عین حال نگرانی‌های مرتبط با تاخیر و حریم خصوصی مدل‌های بر پایه ابر را کاهش دهد. این قابلیت‌های جدید بازار را برای تجربه‌های هوشمند در زمینه‌های مختلف مانند دستیاران مجازی، هوش مصنوعی مکالمه‌ای، دستیاران کدنویسی و وظایف درک زبان باز می‌کند.

معماری و آموزش :

در هسته خود، Phi-3 Mini از یک مدل رمزگشای ترانسفورماتور استفاده می‌کند که بر پایه معماری مشابه مدل منبع باز Llama-2 ساخته شده است. این مدل دارای 32 لایه، 3072 بعد پنهان و 32 سر توجه با طول زمینه پیش‌فرض 4000 توکن است. همچنین، مایکروسافت نسخه‌ای با نام Phi-3 Mini-128K را معرفی کرده است که با استفاده از تکنیک‌هایی مانند LongRope، طول زمینه را به 128000 توکن افزایش می‌دهد.

اما چیزی که Phi-3 Mini را ویژه می‌کند، روش آموزشی آن است. مایکروسافت به جای اعتماد به نیروی بی‌رحم مجموعه داده‌های عظیم و قدرت محاسباتی، بر تولید یک مجموعه داده‌آموزشی با کیفیت بالا و با استدلال متراکم تمرکز کرده است. این داده‌ها از داده‌های وب با دقت فیلتر شده‌اند و همچنین از داده‌های مصنوعی که توسط مدل‌های زبان بزرگتر تولید شده‌اند، تشکیل شده‌اند.

فرآیند آموزش از یک رویکرد دومرحله‌ای پیروی می‌کند. در مرحله اول، مدل در معرض طیف گسترده‌ای از منابع وب قرار می‌گیرد که هدف آن آموزش دانش عمومی و درک زبان است. در فاز دوم، داده‌های وب فیلتر شده‌تر با داده‌های مصنوعی که برای انتقال مهارت‌های استدلال منطقی و تخصص حوزه تخصصی طراحی شده‌اند، ترکیب می‌شوند.

این رویکرد توسط مایکروسافت به عنوان "رژیم بهینه داده" نامیده شده است، که یک انحراف از رژیم‌های سنتی مانند "رژیم بهینه محاسبه" یا "رژیم آموزش بیش از حد" است. هدف این رویکرد، کالیبره کردن داده‌های آموزشی برای مطابقت با مقیاس مدل، ارائه سطح مناسب دانش و توانایی استدلال، و در عین حال باقی گذاشتن ظرفیت کافی برای سایر قابلیت‌هاست.

این رویکرد داده‌محور به نتایج قابل توجهی منجر شده است، زیرا Phi-3 Mini در طیف گسترده‌ای از معیارهای آکادمیک عملکرد قابل توجهی از خود نشان می‌دهد. این عملکرد غالباً با مدل‌های بسیار بزرگتر رقابت می‌کند یا از آنها پیشی می‌گیرد. به عنوان مثال، این مدل امتیاز 69% را در معیار MMLU برای یادگیری و درک چند کار کسب کرده است، و همچنین امتیاز 8.38 را در MT-bench برای استدلال ریاضی کسب کرده است - نتایجی که با مدل‌هایی مانند Mixtral 8x7B و GPT-3.5 برابری می‌کند.

ایمنی و استحکام :

در کنار عملکرد چشمگیر خود، مایکروسافت تاکید زیادی بر ایمنی و استحکام در توسعه Phi-3 Mini داشته است. این مدل تحت یک فرآیند سخت پس از آموزش شامل تنظیم دقیق نظارت شده (SFT) و بهینه‌سازی اولویت مستقیم (DPO) قرار گرفته است.

مرحله SFT از داده‌های بسیار مدیریت شده در حوزه‌های مختلف، از جمله ریاضیات، کدگذاری، استدلال، مکالمه، هویت مدل و ایمنی استفاده می‌کند. این کمک می‌کند تا قابلیت‌های مدل در این زمینه‌ها تقویت شود و در عین حال حس هویت و رفتار اخلاقی قوی را القا کند.

از سوی دیگر، مرحله DPO بر روی هدایت مدل از رفتارهای ناخواسته با استفاده از پاسخ‌های رد شده به عنوان مثال‌های منفی تمرکز دارد. این فرآیند داده‌های قالب چت، وظایف استدلال، و تلاش‌های مسئولیت هوش مصنوعی (RAI) را پوشش می‌دهد و اطمینان می‌دهد که Phi-3 Mini به اصول هوش مصنوعی اخلاقی و قابل اعتماد مایکروسافت پایبند است.

برای افزایش بیشتر مشخصات ایمنی، Phi-3 Mini تحت آزمایش‌های گسترده قرمز و خودکار در ده‌ها دسته‌ی آسیب RAI قرار گرفته است. یک تیم قرمز مستقل در مایکروسافت به طور مکرر مدل را مورد بررسی قرار داده و زمینه‌های بهبود را شناسایی کرده، که سپس از طریق مجموعه داده‌های انتخاب شده اضافی و آموزش مجدد مورد بررسی قرار گرفته است.

این رویکرد چند جانبه، همانطور که توسط معیارهای RAI داخلی مایکروسافت نشان داده شده است، به طور قابل توجهی بروز پاسخ‌های مضر، عدم دقت واقعی و سوگیری‌ها را کاهش داده است. به عنوان مثال، مدل نرخ نقص پایینی را برای ادامه محتوای مضر (0.75٪) و خلاصه‌سازی (10٪) و همچنین نرخ پایین بی‌پایه بودن (0.603) نشان می‌دهد، که نشان می‌دهد پاسخ‌های آن کاملاً در زمینه داده شده ریشه دارند.

کاربردها و موارد استفاده :

Phi-3 Mini با عملکرد برجسته و توجه به ایمنی، برای بسیاری از موارد کاربردی مناسب است، به ویژه در محیط‌های با منابع محدود و سناریوهایی که به تأخیر حساس هستند.

یکی از جذاب‌ترین کاربردها، استفاده از دستیارهای مجازی هوشمند و هوش مصنوعی بر روی تلفن‌های همراه است. این دستیارها می‌توانند به صورت محلی بدون اتصال به اینترنت، پاسخ‌های سریع را ارائه دهند و در عین حال اطمینان حاصل کنند که اطلاعات حساس روی دستگاه باقی می‌ماند و حریم خصوصی رعایت می‌شود.

قابلیت استدلال قوی Phi-3 Mini آن را به یک ابزار مفید برای کمک در کدنویسی و حل مسائل ریاضی تبدیل کرده است. توسعه‌دهندگان و دانش‌آموزان می‌توانند از آن برای تکمیل کدها، تشخیص خطاها و توضیح فرآیندهای توسعه و یادگیری استفاده کنند.

علاوه بر این، توانایی تطبیق مدل در زمینه‌هایی مانند درک زبان، خلاصه‌سازی متن و پاسخ به سؤالات، فرصت‌هایی جدید ارائه می‌دهد. اندازه کوچک و کارایی بالای آن، امکان استفاده از آن در محیط‌های مختلف از لوازم خانگی هوشمند تا سیستم‌های اتوماسیون صنعتی را فراهم می‌سازد.

نگاهی به آینده این هوش مصنوعی :

در حالی که Phi-3 Mini به خودی خود دستاوردی قابل توجه است، اما مایکروسافت برنامه‌های بزرگتری برای خانواده Phi-3 دارد. این شرکت پیش‌نمایش دو مدل بزرگتر به نام Phi-3 Small (7 میلیارد پارامتر) و Phi-3 Medium (14 میلیارد پارامتر) را ارائه کرده است که انتظار می‌رود هر دو مرزهای عملکرد را برای مدل‌های زبان فشرده بهبود بخشند.

Phi-3 Small از یک توکنایزر پیشرفته (tiktoken) و یک مکانیسم توجه گروه‌بندی‌شده، همراه با یک لایه توجه جدید، برای بهینه‌سازی حافظه خود و حفظ عملکرد بازیابی متن طولانی استفاده می‌کند. همچنین 10 درصد از داده‌های چندزبانه اضافی را در خود جای داده و قابلیت‌های آن را در درک زبان و تولید در چندین زبان افزایش می‌دهد.

Phi-3 Medium با 40 لایه، 40 سر توجه و ابعاد تعبیه شده 5120، یک گام قابل توجه در مقیاس را نشان می‌دهد. مایکروسافت اشاره می‌کند که برخی از معیارها ممکن است برای استفاده کامل از این ظرفیت افزایش یافته نیاز به اصلاح بیشتر ترکیب داده‌های آموزشی داشته باشند، اما نتایج اولیه امیدوارکننده هستند، با پیشرفت‌های قابل توجهی نسبت به Phi-3 Mini در وظایفی مانند MMLU، TriviaQA و HumanEval.

محدودیت ها و مسیرهای آینده :

با وجود توانایی‌های چشمگیر، Phi-3 Mini همانند دیگر مدل‌های زبان، محدودیت‌هایی دارد. یکی از نقاط ضعف برجسته آن، ظرفیت نسبتاً محدود برای ذخیره دانش واقعی است، که عملکرد پایین آن در معیارهایی مانند TriviaQA نشان می‌دهد.

اما، مایکروسافت بر این باور است که این محدودیت را می‌توان با تقویت مدل با قابلیت‌های موتور جستجو کاهش داد و به آن اجازه داد تا اطلاعات مربوطه را بر اساس درخواست بازیابی و استدلال کند. این رویکرد در Hugging Face Chat-UI نشان داده شده است، جایی که Phi-3 Mini می‌تواند از جستجو برای بهبود پاسخ‌های خود استفاده کند.

یکی دیگر از زمینه‌های بهبود، قابلیت‌های چندزبانه مدل است. در حالی که Phi-3 Small گام‌های اولیه را با ترکیب داده‌های چندزبانه اضافی برداشته است، برای باز کردن کامل پتانسیل این مدل‌های فشرده برای کاربردهای چند زبانه، کار بیشتری لازم است.

در آینده، مایکروسافت متعهد به پیشرفت مداوم مدل‌های خانواده Phi، رفع محدودیت‌ها و گسترش قابلیت‌ها است. این ممکن است شامل اصلاحات بیشتر در داده‌ها و روش‌شناسی آموزشی و همچنین کاوش در معماری‌ها و تکنیک‌های جدید باشد که به‌طور خاص برای مدل‌های زبان فشرده و با کارایی بالا طراحی شده‌اند.

نتیجه گیری :

Phi-3 Mini مایکروسافت نماد یک جهش به سوی دموکراتیک کردن قابلیت‌های پیشرفته هوش مصنوعی است. با ارائه عملکرد پیشرفته در یک بسته فشرده و کم مصرف، این مدل امکانات جدیدی را برای تجارب هوشمند روی دستگاه در طیف گسترده‌ای از برنامه‌ها باز می‌کند.

رویکرد آموزشی نوآورانه این مدل، که بر داده‌های باکیفیت و استدلال متراکم بیش از توان محاسباتی محض تأکید دارد، نشان داده است که بازی را تغییر می‌دهد و Phi-3 Mini را قادر می‌سازد تا به خوبی بالاتر از کلاس وزنی خود حرکت کند. همراه با اقدامات ایمنی قوی و تلاش‌های توسعه مداوم، خانواده مدل‌های Phi-3 نقش مهمی در شکل‌دهی آینده سیستم‌های هوشمند ایفا می‌کند و هوش مصنوعی را در دسترس‌تر، کارآمدتر و قابل اعتمادتر از همیشه می‌کند.

همچنین، تعهد مایکروسافت به مدل‌های سبک وزن و با کارایی بالا مانند Phi-3 Mini، نشان‌دهنده انحراف تازه‌ای از عقل مرسوم «بزرگ‌تر، بهتر» است. با نشان دادن اینکه اندازه همه چیز نیست، Phi-3 Mini این پتانسیل را دارد که موج جدیدی از نوآوری را با تمرکز بر به حداکثر رساندن ارزش و تأثیر هوش مصنوعی از طریق مدیریت هوشمند داده، طراحی مدل متفکرانه و شیوه‌های توسعه مسئولانه الهام بخشد.