در چند سال اخیر، مدلهای زبان بزرگ (LLM) به دلیل پیشرفتهای چشمگیر در پردازش زبان طبیعی (NLP)، توجه توسعهدهندگان هوش مصنوعی در سراسر جهان را جلب کردهاند. این مدلها معیارهای جدیدی برای تولید و درک متون ایجاد کردهاند. با این وجود، تولید تصاویری که با متون متناسب و منسجم باشند، همچنان یک چالش باقی مانده است.
برای حل این مشکل، توسعهدهندگان یک رویکرد نوآورانه برای تولید زبان و تصویر مبتنی بر "واکنهای مولد" معرفی کردهاند که تطابق بین متون و تصاویر را تسهیل میکند.
اصل و اساس MiniGPT-5 یک استراتژی آموزش دو مرحلهای است که تاکید دارد که دادههای چندوجهی بدون توضیح تصویری جامع را تولید کند. علاوه بر این، این مدل از یک سیستم هدایت بدون نیاز به طبقهبندیکننده استفاده میکند که توانایی تولید تصاویر را با استفاده از voken را تقویت میکند.
در مرحله اولیه، MiniGPT-5 نشان داده است که در مقایسه با مدل پایه Divter، عملکرد قویتری دارد، به ویژه در مجموعه داده MMdialog. این مدل همچنین توانایی ارائه خروجیهای چندوجهی با کیفیت بالا را اثبات کرده و در ارزیابیهای انسانی روی مجموعه داده VIST عملکرد برتری داشته است. این عملکرد در معیارهای مختلف بهبود یافته است.
MiniGPT5 : مقدمه
با پیشرفتهای اخیر در چارچوبهای مدلهای زبان بزرگ (LLM) و برنامههای کاربردی مبتنی بر این چارچوبها، یکپارچهسازی ویژگیهای چندرسانهای یک حوزه مهم است که محبوبیت خود را افزایش داده است. این مسئله نشان میدهد که پیشرفتهای حیاتی حاصل شده و تاثیرگذاری چارچوبهای LLM را در برنامههای متنوع از ابزارهای پیشرفته تولید محتوا تا عاملهای گفتگوی چندرسانهای پیشرفته تقویت میکند.
با توجه به تحقیق و توسعه مداوم، مدلهای زبان و بینایی در یک نقطه قرار دارند که توانایی تولید دادههای متنی و بصری یکپارچه را دارند. این توانایی به تعاملات در حوزههای مختلف از جمله تجارت الکترونیک، رسانه و واقعیت مجازی کمک میکند.

در نهایت، هدف اصلی این است که مدلها قادر باشند به طور یکپارچه تر و یکنواخت تر متنها و تصاویر را ترکیب و شناسایی کنند و به آنها پاسخ دهند. برای دستیابی به این هدف، نیاز به یک ترکیبی از روشهای متنی و بصری است که به طور هماهنگ و تطابقی کار کنند. این تعاملات چندرسانهای در چارچوبهای مدلهای زبان بزرگ (LLM) نقش مهمی ایفا میکنند و در نهایت منجر به تولید زبان متناوب و بینش میشوند.
با این وجود، دستیابی به تعاملات چندرسانهای یک چالش پیچیده است و با مشکلات متعددی همچون تراز کردن متن با تصاویر مرتبط روبهرو میشود.
علاوه بر این، LLMهای فعلی در تولید تصاویر به عنوان پاسخ به متون عملکرد مطلوبی ارائه نمیدهند. توسعه مدلهای بینایی و زبان به نیاز به دادههای موضوع محور برای تطابق متون و تصاویر و تراز کردن آنها با یکدیگر اعتماد میکند.
در نهایت، نیاز به ارائه استراتژیهای مؤثرتر و قدرتمندتر وجود دارد، زیرا با افزایش قدرت و توانایی مدلها، نیاز به حافظه بیشتری در LLMها نیز افزایش مییابد.
فریمورک MiniGPT-5 یک ترکیب از زبان و تکنیکهای الگوریتمی برای تولید چشماندازها با مفهوم "vokenهای مولد" را معرفی میکند. این فریمورک یک رویکرد جدید برای تولید دادههای چندرسانهای با ترکیب مدلهای زبان بزرگ و تکنیکهای انتشار پایدار با استفاده از نشانههای بصری ارائه میدهد. روش آموزش دو مرحلهای MiniGPT-5 نیز تأکید میکند که یک مرحله پایه بدون توضیح را ارائه دهد و مدل را برای ارائه عملکرد کارآمد حتی در موارد دادههای محدود آماده کند.

اما چیزی که مدل MiniGPT-5 را از چارچوبهای فعلی متمایز میکند، این است که از حاشیه نویسیهای خاص دامنه استفاده نمیکند. به عبارت دیگر، MiniGPT-5 برای تولید متن و تصویر به همراه هماهنگی بین آنها از مدلهای مختص به یک حوزه خاص استفاده نمیکند.
علاوه بر این، چارچوب MiniGPT-5 برای اطمینان از هماهنگی متن و تصاویر تولید شده با یکدیگر، از استفاده از روش دوگانهای از دست دادن استفاده میکند. این رویکرد MiniGPT-5 را در استفاده از راهنمایی بدون نیاز به طبقهبندی و از vokenهای تولیدی بیشتری بهرهمند میکند. چارچوب MiniGPT-5 کارایی آموزش را بهینه میکند و با استفاده از استراتژی کارآمد پارامتربندی، محدودیتهای حافظه را بهبود میدهد.
برای خلاصهای سریع، چارچوب MiniGPT-5 یک روش جدید برای ترکیب متن و تصویر را ارائه میدهد. این روش از رمزگذارهای چندوجهی بهره میبرد که نوآوری جدیدی را نشان میدهند و از یک روش عمومی که به عنوان موثرترین از LLMهای سنتی ثابت شده است، بهره میبرد. این چارچوب از ترکیب توکنهای مولد و تکنیکهای انتشار پایدار برای تولید زبان به همراه هم پیوسته استفاده میکند.
مدل MiniGPT-5 یک استراتژی آموزش دو مرحلهای ارائه میدهد که برای تولید دادههای چندوجهی بدون شرح و اصلاح کیفیت دادههای تولید شده، از راهنمایی بدون نیاز به طبقهبندی در طول آموزش استفاده میکند.
این مدل بسیار تأثیرگذار از تحقیقات قبلی الهام گرفته است، به خصوص در زمینههای تولید متن به تصویر، مدلهای زبان بزرگ چندوجهی (MLLM) و تولید دادههای چندوجهی با مدلهای زبانی بزرگ. این رویکرد امکان ایجاد یکپارچهسازی بین متن و تصویر را فراهم میکند.
MiniGPT-5 : روش، معماری و چارچوب
برای تسهیل توانایی مدلهای زبان بزرگ در تولید دادههای چندرسانهای، چارچوب MiniGPT-5 یک رویکرد جدید را معرفی میکند که هدف آن ادغام متن با مدلهای تولید تصویر و مدلهای زبان بزرگ چندرسانهای پیشآموزشدیده است. این چارچوب بیشتر از "واکنهای مولد" استفاده میکند که نشانههای بصری ویژهای هستند و توسعهدهندگان اجازه میدهد که با آموزش مستقیم بر روی تصاویر خام، اختلافاتی که در دامنههای مختلف ظاهر میشوند را برطرف کنند.
برای بهبود کیفیت دادههای چندرسانهای تولیدی توسط مدلهای زبان بزرگ، چارچوب MiniGPT-5 یک استراتژی بدون نیاز به طبقهبندی همراه با یک روش آموزشی پیشرفته دو مرحلهای را ارائه میدهد. بیایید به طور دقیقتر به چارچوب MiniGPT-5 نگاهی بیاندازیم.
مرحله ورودی چند وجهی:
پیشرفتهای اخیر در مدلهای زبان بزرگ (LLM) توانایی درک دادههای چندرسانهای را بهبود دادهاند و امکان پردازش تصاویر به عنوان ورودی متوالی را فراهم کردهاند. چارچوب MiniGPT-5 از "واکنهای مولد" ویژهای برای استخراج ویژگیهای بصری طراحی شده است به منظور گسترش توانایی درک دادههای چندرسانهای در مدلهای زبان بزرگ. علاوه بر این، چارچوب MiniGPT-5 از تکنیکهای دقیق و کارآمد برای تنظیم پارامترها برای یادگیری خروجی چندرسانهای با استفاده از چارچوب LLM استفاده میکند.
رمزگذاری چند وجهی:
رمزگذار بصری که از پیشآموزشدیده در چارچوب MiniGPT-5 استفاده میکند، هر تصویر ورودی را به ویژگیهای بصری تبدیل میکند. همچنین، هر نشانه متنی به عنوان یک بردار جاسازی نماینده تبدیل میشود و ویژگیهای ورودی زمانی ایجاد میشوند که این جاسازیها با یکدیگر ادغام میشوند.
افزودن Voken به مدلهای زبان بزرگ:
به طور سنتی، واژگان مدلهای زبان بزرگ فقط از نشانههای متنی تشکیل شده بود، به همین دلیل توسعهدهندگانی که در چارچوب MiniGPT-5 کار میکنند، باید شکاف بین مدلهای زبانی بزرگ و مولدها ایجاد کنند. این چارچوب از یک مجموعه از توکنهای خاص به عنوان "توکنهای مولد" در واژگان مدلهای زبان بزرگ استفاده میکند. سپس چارچوب مهارتهای خروجی مخفی مدلهای زبانی بزرگ را برای این توکنهای ویژه به منظور تولید تصاویر بعدی کنترل میکند و مکان تصاویر را به موقعیت توکنها نشان میدهد.
PEFT یا تنظیم دقیق و کارآمد پارامتر:
PEFT یا "Parameter Efficient Fine Tuning" یک مفهوم حیاتی است که برای آموزش مدلهای زبان بزرگ استفاده میشود، اما هنوز کاربردهای آن در تنظیمات چندرسانهای تا حد زیادی ناشناخته است. چارچوب MiniGPT-5 از تنظیم دقیق پارامترها روی رمزگذار چارچوب MiniGPT-4 استفاده میکند تا مدل را برای بهترین درک اعلانها یا دستورالعملها آموزش دهد و حتی عملکرد کلی مدل را در محیطهای صفر شات یا جدید بهبود دهد.
تولید خروجی چندوجهی:
در چارچوب MiniGPT-5، برای تولید خروجی چندوجهی، از یک ماژول نگاشت فشرده استفاده میشود که به منظور تطبیق ابعاد و ترکیب تلفات نظارتی استفاده میشود. این ماژول به دقیقه مدل مولد با توکنهای مولد هماهنگ میشود. از دست دادن مدل انتشار پنهان به مدل امکان میدهد که ویژگیهای بصری را مستقیماً با توکنها هماهنگ کند، و از دست دادن فضای متنی به مدل کمک میکند که موقعیتهای صحیح نشانهها را یاد بگیرد. این چارچوب به علت هدایت مستقیم توسط تصاویر، نیازی به توضیحات جامع برای تصاویر ندارد و به تولید خروجی چندوجهی بدون نیاز به توضیحات شفافیت میدهد.
تولید فضای متنی:
در چارچوب MiniGPT-5 برای تولید فضای متنی، از روش مدلسازی زبان گاه به گاه استفاده میشود تا هم صداها و هم متون را در یک فضای متنی به طور مشترک تولید کند. در مرحله آموزش، توسعهدهندگان vokenها را به موقعیت تصاویر حقیقت زمین اضافه میکنند و مدل را برای پیشبینی vokenها آموزش میدهند.
برای تولید خروجی چندوجهی، چارچوب MiniGPT-5 از ماژول نگاشت فشرده بهره میبرد تا تطبیق ابعاد مدل مولد با توکنهای مولد را انجام دهد و تلفات نظارتی و از دست دادن مدل انتشار پنهان و از دست دادن فضای متنی را مدیریت کند. این رویکرد به مدل امکان میدهد تا ویژگیهای بصری را با توکنهای مولد هماهنگ کرده و موقعیتهای صحیح نشانهها را بیاموزد. با این روش، توضیحات شفاف برای تصاویر مورد نیاز نیست و مدل میتواند به صورت بدون نیاز به توضیحات کار کند.
برای تولید فضای متنی، چارچوب MiniGPT-5 از یک رویکرد مدلسازی زبان گاه به گاه استفاده میکند. توسعهدهندگان vokenها به موقعیت تصاویر حقیقت زمین اضافه میشوند و مدل را برای پیشبینی vokenها در متن آموزش میدهند. این روش باعث تولید متون و صداها در یک فضای متنی مشترک میشود.
نقشهبرداری از ویژگیهای Voken برای تولید تصویر:
در مرحله تولید تصویر در چارچوب MiniGPT-5، پس از ایجاد فضای متن، از یک چارچوب حالت خروجی پنهان استفاده میشود که این فضای را با فضای ویژگیهای مشروط بر متن مدل تولید متن به تصویر هماهنگ میکند. این چارچوب همچنین از یک ماژول نقشهبردار ویژگی پشتیبانی میکند که شامل یک مدل MLP دو لایه، یک توالی ویژگی رمزگشای قابل یادگیری و یک مدل ترانسفورماتور رمزگذار-رمزگشا چهار لایه است. این ماژولها باعث تطبیق متن و ویژگیهای تصویر شده و در تولید تصویر نقش مهمی ایفا میکنند.
تولید تصویر با LDM یا مدل انتشار پنهان:
برای تولید تصاویر مورد نیاز در مرحله حذف نویز، چارچوب MiniGPT-5 از ویژگیهای نگاشت به عنوان ورودی شرطی استفاده میکند. این ویژگیهای نگاشت تاثیر مستقیمی بر فرآیند تولید تصویر دارند. همچنین، چارچوب از یک مدل انتشار پنهان (LDM) بهره میبرد که در مرحله آموزش ابتدا تصویر حقیقت زمین را به یک ویژگی پنهان تبدیل میکند. سپس، توسعهدهندگان با افزودن مقداری نویز، ویژگی نویز پنهان را به دست میآورند. این فرآیند به تولید تصاویر دقیقتر و متناسب با شرایط خاص کمک میکند.
چارچوب MiniGPT-5 از یک رویکرد جامع به عنوان یک ترکیب از مدلهای از پیش آموزشدیده، نشانههای تخصصی و تکنیکهای آموزشی نوآورانه استفاده میکند. این رویکرد به توسعهدهندگان امکان میدهد تا عناصر بصری و متنی را با دقت و هماهنگی منسجم تولید کنند، با استفاده از نشانههای تخصصی و قابلیتهای مدلهای از پیش آموزشدیده. این چارچوب ترکیبی از مدلهای زبانی و بصری به تولید محتوای چندوجهی برای متن و تصویر کمک میکند.
در مرحلهی آموزش چارچوب MiniGPT-5، توسعهدهندگان با مشکلاتی روبرو شدند که ممکن بود به کاهش کیفیت تصاویر و ناهماهنگیها در تغییر دامنه منجر شود. این مشکلات به دلیل آموزش مستقیم روی مجموعه دادههای محدود متن و تصویر به وجود آمد. به منظور کاهش این مشکلات، توسعهدهندگان از دو استراتژی جداگانه استفاده کردند:
1. ادغام تکنیکهای راهنمایی بدون طبقهبندی: این استراتژی به افزایش عملکرد توکنهای مولد در طول فرآیند تولید کمک میکند و به توجه به تغییر دامنه میان تصاویر کمک میکند.
2. مرحله دوم به دو مرحله تقسیم میشود:
- مرحله اولیه: این مرحله از آموزش به معامله با ویژگیهای خشن تمرکز دارد و به تطابق آموزش مدل با ویژگیهای اولیه کمک میکند.
- مرحله تنظیم دقیق: در این مرحله، یادگیری ویژگیها را تسهیل میکند و به تطبیق مدل با دقیقترین جزئیات ویژگیها کمک میکند.