مدل های هوش مصنوعی چند زبانه و فراتر از انگلیسی

1402/12/2
کدنويسي
2429
0
0

بر اساس تحقیقات مایکروسافت، حدود 88 درصد از زبان‌های جهان که توسط 1.2 میلیارد نفر صحبت می‌شود، به مدل‌های زبان بزرگ (LLM) دسترسی ندارند. این به این دلیل است که اکثر LLM ها انگلیسی‌محور هستند، یعنی بیشتر با داده‌های انگلیسی و برای انگلیسی‌زبانان ساخته شده‌اند. این تسلط انگلیسی در توسعه LLM نیز غالب است و به شکاف زبان دیجیتال منجر شده است که به طور بالقوه اکثر افراد را از مزایای LLM محروم می‌کند. برای حل این مشکل برای LLM ها، به یک LLM نیاز است که بتواند به زبان‌های مختلف آموزش ببیند و وظایف را به زبان‌های مختلف انجام دهد. LLM های چند زبانه را وارد کنید!

LLM های چند زبانه چیست؟

یک LLM چند زبانه می‌تواند متن را به چندین زبان درک کرده و تولید کند. آنها بر روی مجموعه داده‌هایی که شامل زبان‌های مختلف هستند، آموزش دیده‌اند و می‌توانند وظایف مختلفی را در بیش از یک زبان از طریق درخواست کاربر انجام دهند.

برنامه‌های کاربردی LLM چند زبانه بسیار زیاد هستند؛ آنها شامل ترجمه ادبیات به گویش‌های محلی، ارتباطات چندزبانه در زمان واقعی، ایجاد محتوای چند زبانه و غیره می‌شود.

همچنین، LLM های چند زبانه به چالش‌هایی مانند فقدان تفاوت‌های فرهنگی و زمینه، محدودیت‌های داده‌های آموزشی، و از دست دادن بالقوه دانش در طول ترجمه می‌پردازند.

LLM های چند زبانه چگونه کار می کنند؟

ساخت یک LLM چند زبانه شامل تهیه دقیق مجموعه متنی متعادل به زبان‌های مختلف و انتخاب یک معماری و تکنیک آموزشی مناسب برای آموزش مدل، ترجیحاً یک مدل Transformer است که برای یادگیری چند زبانه عالی است.
یکی از تکنیک‌ها اشتراک‌گذاری جاسازی‌ها است که معنای معنایی کلمات را در زبان‌های مختلف نشان می‌دهد. این باعث می‌شود LLM شباهت‌ها و تفاوت‌های هر زبان را بیاموزد و زبان‌های مختلف را بهتر درک کند.

این دانش همچنین LLM را قادر می‌سازد تا با وظایف مختلف زبانی، مانند ترجمه زبان‌ها، نوشتن به سبک‌های مختلف و غیره سازگار شود. تکنیک دیگری که مورد استفاده قرار می‌گیرد، یادگیری انتقال بین زبانی است، که در آن مدل قبل از ارائه بر روی مجموعه بزرگی از داده‌های چندزبانه از قبل آموزش داده می‌شود. تنظیم دقیق در وظایف خاص این فرآیند دو مرحله‌ای تضمین می‌کند که مدل دارای پایه قوی در درک زبان چندزبانه است و آن را با برنامه‌های مختلف پایین دستی سازگار می‌کند.

نمونه هایی از مدل های زبان بزرگ چند زبانه

چندین نمونه قابل توجه از LLM های چندزبانه پدیدار شده اند که هر کدام نیازهای زبانی و زمینه های فرهنگی خاصی را برآورده می کنند. بیایید تعدادی از آنها را بررسی کنیم:

BLOOM

BLOOM یک LLM چندزبانه با دسترسی آزاد است که زبان‌های متنوع و دسترسی را در اولویت قرار می‌دهد. با 176 میلیارد پارامتر، BLOOM می‌تواند وظایف را در 46 زبان طبیعی و 13 زبان برنامه‌نویسی انجام دهد و آن را به یکی از بزرگترین و متنوع‌ترین LLM تبدیل می‌کند.

ماهیت منبع باز BLOOM به محققان، توسعه‌دهندگان و جوامع زبانی اجازه می‌دهد تا از قابلیت‌های آن بهره ببرند و در بهبود آن سهیم باشند.

2. YAYI 2

YAYI 2 یک LLM منبع باز است که با توجه به پیچیدگی‌ها و تفاوت‌های فرهنگی منطقه، به طور خاص برای زبان‌های آسیایی طراحی شده است. این از ابتدا بر روی مجموعه‌ای چندزبانه از بیش از 16 زبان آسیایی حاوی 2.65 تریلیون توکن فیلتر شده از قبل آموزش داده شده بود.

این باعث می‌شود که این مدل نتایج بهتری ارائه دهد و نیازهای خاص زبان‌ها و فرهنگ‌های آسیا را برآورده کند.

3.POLYLM

PolyLM یک LLM «چند زبان» منبع باز است که با ارائه قابلیت‌های سازگاری بر روی پرداختن به چالش‌های زبان‌های کم منبع تمرکز دارد. این بر روی مجموعه داده ای از حدود 640 میلیارد توکن آموزش داده شده است و در دو اندازه مدل موجود است: 1.7B و 13B. PolyLM بیش از 16 زبان مختلف را می داند.

این امکان را فراهم می‌کند که مدل‌های آموزش‌دیده بر روی زبان‌های با منابع بالا برای زبان‌های کم منبع با داده‌های محدود به‌خوبی تنظیم شوند. این انعطاف‌پذیری باعث می‌شود که LLM در موقعیت‌ها و وظایف مختلف زبان مفیدتر باشد.

4.XGLM

XGLM، با 7.5 میلیارد پارامتر، یک LLM چند زبانه است که بر روی مجموعه ای از مجموعه متنوعی از بیش از 20 زبان با استفاده از تکنیک یادگیری چند شات آموزش داده شده است. این بخشی از خانواده‌ای از LLM های چندزبانه در مقیاس بزرگ است که بر روی مجموعه داده عظیمی از متن و کد آموزش دیده اند.

هدف آن پوشش کامل بسیاری از زبان‌ها است، به همین دلیل است که بر فراگیری و تنوع زبانی تمرکز دارد. XGLM پتانسیل ساخت مدل هایی را نشان می دهد که نیازهای جوامع زبانی مختلف را برآورده می کند.

5. MT5

mT5 (تبدیل کننده انتقال متن به متن بسیار چندزبانه) توسط هوش مصنوعی گوگل توسعه یافته است. آموزش داده شده بر روی مجموعه داده رایج خزیدن، mT5 یک LLM چند زبانه پیشرفته است که می تواند 101 زبان را مدیریت کند، از اسپانیایی و چینی که به طور گسترده صحبت می شود تا زبان های کم منابع مانند باسک و کچوا.

همچنین در کارهای چند زبانه مانند ترجمه، تلخیص، پاسخگویی به پرسش و غیره برتری دارد.

آیا LLM جهانی امکان پذیر است؟

مفهوم یک LLM خنثی از نظر زبان، که قادر به درک و تولید زبان بدون تعصب نسبت به زبان خاصی است، جالب است.

در حالی که توسعه یک LLM واقعاً جهانی هنوز بسیار دور است، LLM های چند زبانه فعلی موفقیت چشمگیری را نشان داده اند. هنگامی که به طور کامل توسعه یافتند، می توانند نیازهای زبان های کم نمایندگی و جوامع متنوع را برآورده کنند.

به عنوان مثال، تحقیقات نشان می دهد که اکثر LLM های چندزبانه می توانند انتقال بین زبانی صفر شات را از یک زبان غنی از منابع به یک زبان محروم از منابع بدون داده های آموزشی ویژه کار تسهیل کنند.

همچنین، مدل‌هایی مانند YAYI و BLOOM که بر زبان‌ها و جوامع خاص تمرکز دارند، پتانسیل رویکردهای زبان محور را در پیشبرد پیشرفت و فراگیری نشان داده‌اند.

برای ایجاد یک LLM جهانی یا بهبود LLM های چند زبانه فعلی، افراد و سازمان ها باید موارد زیر را انجام دهند:

گویندگان بومی را جذب کرده و از آنها برای مشارکت در جامعه و مدیریت مجموعه داده‌های زبان استفاده کنند.
- از تلاش‌های جامعه در خصوص مشارکت‌های منبع باز حمایت کنند و تأمین مالی برای تحقیقات و توسعه‌های چندزبانه ارائه دهند.

چالش های LLM های چند زبانه

در حالی که مفهوم LLMهای چندزبانه جهانی نویدبخش است، آنها همچنین با چالش‌های متعددی روبرو هستند که باید قبل از اینکه بتوانیم از آنها بهره مند شویم، مورد توجه قرار گیرند:

1. کمیت داده:
مدل‌های چند زبانه به واژگان بزرگ‌تری برای نمایش نشانه‌ها در بسیاری از زبان‌ها نسبت به مدل‌های تک زبانه نیاز دارند، اما بسیاری از زبان‌ها فاقد مجموعه داده‌های مقیاس بزرگ هستند. این امر آموزش موثر این مدل ها را دشوار می کند.

2. نگرانی های کیفیت داده ها:
اطمینان از دقت و تناسب فرهنگی خروجی های چند زبانه LLM در سراسر زبان ها یک نگرانی مهم است. مدل‌ها باید با توجه دقیق به ظرافت‌های زبانی و فرهنگی آموزش و تنظیم کنند تا از سوگیری و نادرستی جلوگیری شود.

3. محدودیت منابع:
آموزش و اجرای مدل‌های چند زبانه به منابع محاسباتی قابل توجهی مانند GPUهای قدرتمند (مانند NVIDIA A100 GPU) نیاز دارد. هزینه بالا چالش هایی را ایجاد می کند، به ویژه برای زبان های کم منبع و جوامع با دسترسی محدود به زیرساخت های محاسباتی.

4. معماری مدل:
انطباق معماری‌های مدل برای تطبیق ساختارها و پیچیدگی‌های زبانی متنوع یک چالش مداوم است. مدل‌ها باید بتوانند زبان‌هایی را با ترتیب کلمات، تغییرات مورفولوژیکی و سیستم‌های نوشتاری مختلف و در عین حال کارایی و کارایی بالا را مدیریت کنند.

5. پیچیدگی های ارزیابی:
ارزیابی عملکرد LLM های چند زبانه فراتر از معیارهای انگلیسی برای اندازه گیری اثربخشی واقعی آنها بسیار مهم است. این امر مستلزم در نظر گرفتن تفاوت‌های فرهنگی، ویژگی‌های زبانی و الزامات خاص حوزه است.

LLM های چندزبانه این پتانسیل را دارند که موانع زبانی را بشکنند، زبان هایی را که منابع کمتری دارند توانمند کنند و ارتباط موثر بین جوامع مختلف را تسهیل کنند.