بر اساس تحقیقات مایکروسافت، حدود 88 درصد از زبانهای جهان که توسط 1.2 میلیارد نفر صحبت میشود، به مدلهای زبان بزرگ (LLM) دسترسی ندارند. این به این دلیل است که اکثر LLM ها انگلیسیمحور هستند، یعنی بیشتر با دادههای انگلیسی و برای انگلیسیزبانان ساخته شدهاند. این تسلط انگلیسی در توسعه LLM نیز غالب است و به شکاف زبان دیجیتال منجر شده است که به طور بالقوه اکثر افراد را از مزایای LLM محروم میکند. برای حل این مشکل برای LLM ها، به یک LLM نیاز است که بتواند به زبانهای مختلف آموزش ببیند و وظایف را به زبانهای مختلف انجام دهد. LLM های چند زبانه را وارد کنید!
LLM های چند زبانه چیست؟
یک LLM چند زبانه میتواند متن را به چندین زبان درک کرده و تولید کند. آنها بر روی مجموعه دادههایی که شامل زبانهای مختلف هستند، آموزش دیدهاند و میتوانند وظایف مختلفی را در بیش از یک زبان از طریق درخواست کاربر انجام دهند.
برنامههای کاربردی LLM چند زبانه بسیار زیاد هستند؛ آنها شامل ترجمه ادبیات به گویشهای محلی، ارتباطات چندزبانه در زمان واقعی، ایجاد محتوای چند زبانه و غیره میشود.
همچنین، LLM های چند زبانه به چالشهایی مانند فقدان تفاوتهای فرهنگی و زمینه، محدودیتهای دادههای آموزشی، و از دست دادن بالقوه دانش در طول ترجمه میپردازند.
LLM های چند زبانه چگونه کار می کنند؟

ساخت یک LLM چند زبانه شامل تهیه دقیق مجموعه متنی متعادل به زبانهای مختلف و انتخاب یک معماری و تکنیک آموزشی مناسب برای آموزش مدل، ترجیحاً یک مدل Transformer است که برای یادگیری چند زبانه عالی است.
یکی از تکنیکها اشتراکگذاری جاسازیها است که معنای معنایی کلمات را در زبانهای مختلف نشان میدهد. این باعث میشود LLM شباهتها و تفاوتهای هر زبان را بیاموزد و زبانهای مختلف را بهتر درک کند.
این دانش همچنین LLM را قادر میسازد تا با وظایف مختلف زبانی، مانند ترجمه زبانها، نوشتن به سبکهای مختلف و غیره سازگار شود. تکنیک دیگری که مورد استفاده قرار میگیرد، یادگیری انتقال بین زبانی است، که در آن مدل قبل از ارائه بر روی مجموعه بزرگی از دادههای چندزبانه از قبل آموزش داده میشود. تنظیم دقیق در وظایف خاص این فرآیند دو مرحلهای تضمین میکند که مدل دارای پایه قوی در درک زبان چندزبانه است و آن را با برنامههای مختلف پایین دستی سازگار میکند.
نمونه هایی از مدل های زبان بزرگ چند زبانه

چندین نمونه قابل توجه از LLM های چندزبانه پدیدار شده اند که هر کدام نیازهای زبانی و زمینه های فرهنگی خاصی را برآورده می کنند. بیایید تعدادی از آنها را بررسی کنیم:
-
BLOOM
BLOOM یک LLM چندزبانه با دسترسی آزاد است که زبانهای متنوع و دسترسی را در اولویت قرار میدهد. با 176 میلیارد پارامتر، BLOOM میتواند وظایف را در 46 زبان طبیعی و 13 زبان برنامهنویسی انجام دهد و آن را به یکی از بزرگترین و متنوعترین LLM تبدیل میکند.
ماهیت منبع باز BLOOM به محققان، توسعهدهندگان و جوامع زبانی اجازه میدهد تا از قابلیتهای آن بهره ببرند و در بهبود آن سهیم باشند.
2. YAYI 2
YAYI 2 یک LLM منبع باز است که با توجه به پیچیدگیها و تفاوتهای فرهنگی منطقه، به طور خاص برای زبانهای آسیایی طراحی شده است. این از ابتدا بر روی مجموعهای چندزبانه از بیش از 16 زبان آسیایی حاوی 2.65 تریلیون توکن فیلتر شده از قبل آموزش داده شده بود.
این باعث میشود که این مدل نتایج بهتری ارائه دهد و نیازهای خاص زبانها و فرهنگهای آسیا را برآورده کند.
3.POLYLM
PolyLM یک LLM «چند زبان» منبع باز است که با ارائه قابلیتهای سازگاری بر روی پرداختن به چالشهای زبانهای کم منبع تمرکز دارد. این بر روی مجموعه داده ای از حدود 640 میلیارد توکن آموزش داده شده است و در دو اندازه مدل موجود است: 1.7B و 13B. PolyLM بیش از 16 زبان مختلف را می داند.
این امکان را فراهم میکند که مدلهای آموزشدیده بر روی زبانهای با منابع بالا برای زبانهای کم منبع با دادههای محدود بهخوبی تنظیم شوند. این انعطافپذیری باعث میشود که LLM در موقعیتها و وظایف مختلف زبان مفیدتر باشد.
4.XGLM
XGLM، با 7.5 میلیارد پارامتر، یک LLM چند زبانه است که بر روی مجموعه ای از مجموعه متنوعی از بیش از 20 زبان با استفاده از تکنیک یادگیری چند شات آموزش داده شده است. این بخشی از خانوادهای از LLM های چندزبانه در مقیاس بزرگ است که بر روی مجموعه داده عظیمی از متن و کد آموزش دیده اند.
هدف آن پوشش کامل بسیاری از زبانها است، به همین دلیل است که بر فراگیری و تنوع زبانی تمرکز دارد. XGLM پتانسیل ساخت مدل هایی را نشان می دهد که نیازهای جوامع زبانی مختلف را برآورده می کند.
5. MT5
mT5 (تبدیل کننده انتقال متن به متن بسیار چندزبانه) توسط هوش مصنوعی گوگل توسعه یافته است. آموزش داده شده بر روی مجموعه داده رایج خزیدن، mT5 یک LLM چند زبانه پیشرفته است که می تواند 101 زبان را مدیریت کند، از اسپانیایی و چینی که به طور گسترده صحبت می شود تا زبان های کم منابع مانند باسک و کچوا.
همچنین در کارهای چند زبانه مانند ترجمه، تلخیص، پاسخگویی به پرسش و غیره برتری دارد.
آیا LLM جهانی امکان پذیر است؟
مفهوم یک LLM خنثی از نظر زبان، که قادر به درک و تولید زبان بدون تعصب نسبت به زبان خاصی است، جالب است.
در حالی که توسعه یک LLM واقعاً جهانی هنوز بسیار دور است، LLM های چند زبانه فعلی موفقیت چشمگیری را نشان داده اند. هنگامی که به طور کامل توسعه یافتند، می توانند نیازهای زبان های کم نمایندگی و جوامع متنوع را برآورده کنند.
به عنوان مثال، تحقیقات نشان می دهد که اکثر LLM های چندزبانه می توانند انتقال بین زبانی صفر شات را از یک زبان غنی از منابع به یک زبان محروم از منابع بدون داده های آموزشی ویژه کار تسهیل کنند.
همچنین، مدلهایی مانند YAYI و BLOOM که بر زبانها و جوامع خاص تمرکز دارند، پتانسیل رویکردهای زبان محور را در پیشبرد پیشرفت و فراگیری نشان دادهاند.
برای ایجاد یک LLM جهانی یا بهبود LLM های چند زبانه فعلی، افراد و سازمان ها باید موارد زیر را انجام دهند:
گویندگان بومی را جذب کرده و از آنها برای مشارکت در جامعه و مدیریت مجموعه دادههای زبان استفاده کنند.
- از تلاشهای جامعه در خصوص مشارکتهای منبع باز حمایت کنند و تأمین مالی برای تحقیقات و توسعههای چندزبانه ارائه دهند.
چالش های LLM های چند زبانه
در حالی که مفهوم LLMهای چندزبانه جهانی نویدبخش است، آنها همچنین با چالشهای متعددی روبرو هستند که باید قبل از اینکه بتوانیم از آنها بهره مند شویم، مورد توجه قرار گیرند:
1. کمیت داده:
مدلهای چند زبانه به واژگان بزرگتری برای نمایش نشانهها در بسیاری از زبانها نسبت به مدلهای تک زبانه نیاز دارند، اما بسیاری از زبانها فاقد مجموعه دادههای مقیاس بزرگ هستند. این امر آموزش موثر این مدل ها را دشوار می کند.
2. نگرانی های کیفیت داده ها:
اطمینان از دقت و تناسب فرهنگی خروجی های چند زبانه LLM در سراسر زبان ها یک نگرانی مهم است. مدلها باید با توجه دقیق به ظرافتهای زبانی و فرهنگی آموزش و تنظیم کنند تا از سوگیری و نادرستی جلوگیری شود.
3. محدودیت منابع:
آموزش و اجرای مدلهای چند زبانه به منابع محاسباتی قابل توجهی مانند GPUهای قدرتمند (مانند NVIDIA A100 GPU) نیاز دارد. هزینه بالا چالش هایی را ایجاد می کند، به ویژه برای زبان های کم منبع و جوامع با دسترسی محدود به زیرساخت های محاسباتی.
4. معماری مدل:
انطباق معماریهای مدل برای تطبیق ساختارها و پیچیدگیهای زبانی متنوع یک چالش مداوم است. مدلها باید بتوانند زبانهایی را با ترتیب کلمات، تغییرات مورفولوژیکی و سیستمهای نوشتاری مختلف و در عین حال کارایی و کارایی بالا را مدیریت کنند.
5. پیچیدگی های ارزیابی:
ارزیابی عملکرد LLM های چند زبانه فراتر از معیارهای انگلیسی برای اندازه گیری اثربخشی واقعی آنها بسیار مهم است. این امر مستلزم در نظر گرفتن تفاوتهای فرهنگی، ویژگیهای زبانی و الزامات خاص حوزه است.
LLM های چندزبانه این پتانسیل را دارند که موانع زبانی را بشکنند، زبان هایی را که منابع کمتری دارند توانمند کنند و ارتباط موثر بین جوامع مختلف را تسهیل کنند.