مدلهای انتشار بدون نظارت و تکنیکهای متن به تصویر واقعاً به دنیای هوش مصنوعی و یادگیری ماشینی ابزارهایی قدرتمند افزودهاند که تغییرات چشمگیری در کاربردهای واقعی ایجاد کردهاند. پس از توانمندی مدلهای متن به تصویر، تکنیکهای دستکاری تصویر بر پایه انتشار، امکانات زیادی را برای ما فراهم کردهاند. این امکانات شامل تولید تصاویر قابل کنترل، ترکیب تخصصی و شخصیسازی تصاویر، ویرایش تصاویر در سطح شی، اعمال تغییرات شرطی و ویرایش تصاویر فوری میشوند و در صنعت بینایی کامپیوتر به کار گرفته میشوند.
با این وجود، چارچوبهای متن به تصویر، بهویژه چارچوبهای نقاشی متن به تصویر، هنوز در زمینههای بالقوهای برای توسعه دارند. این شامل توانایی درک صحنههای جهانی، بهویژه هنگام حذف نویز تصویر در مراحل زمانی با انتشار بالا است. برای حل این مسئله، HD-Painter معرفی شده است، که یک چارچوب بدون آموزش کاملاً جدید است. این چارچوب از یک لایه توجه درونگرا آگاهانه با نام PAINtA استفاده میکند که از اطلاعات سریع برای افزایش امتیازات توجه به خود استفاده میکند و باعث بهبود تولید تصاویر با وضوح بالا میشود.
برای افزایش انسجام اعلان، مدل HD-Painter از یک رویکرد جدید به نام "هدایت امتیاز توجه مجدد" (RASG) استفاده میکند. این رویکرد یک استراتژی نمونهگیری پسهک را با مولفه DDIM به یکپارچه میکند و از تغییرات پنهان خارج از توزیع جلوگیری میکند. علاوه بر این، چارچوب HD-Painter یک تکنیک تخصصی دارد که برای نقاشی داخلی سفارشی ساخته شده است. این تکنیک به مدل امکان میدهد تا مقیاسهای بزرگتر را پوشش دهد و مناطق از دست رفته در تصویر با وضوح تا 2K را بهبود بخشد.
رنگ آمیزی تصاویر با دستورات متنی
مدلهای تولید متن به تصویر به تازگی موضوع مهمی در زمینه هوش مصنوعی و یادگیری عمیق شدهاند. این مدلها، از جمله DALL-E، Imagen، و Stable Diffusion، توانایی تولید تصاویر جذاب و با کیفیت با استفاده از متن وارد شده را نشان دادهاند. آنها از تکنیکهای مبتنی بر انتشار به عقب برای ترکیب نواحی ناشناخته با نواحی شناخته شده در تصاویر استفاده میکنند. با این حال، مشکلاتی نظیر درک صحنه جهانی و تحت فرآیند حذف نویز در این مدلها وجود دارد.
برای بهبود این مسائل، محققان درحال تلاش برای اصلاح مدلهای انتشار متن به تصویر هستند. آنها قصد دارند با تنظیم مدلها و اضافه کردن اطلاعات زمینه اضافی، این مشکلات را حل کنند. همچنین، نقاشی درونی با هدایت متن و تکمیل تصویر با هدایت متن، موضوعات تحقیقاتی اصلی شدهاند. این مدلها میتوانند بر اساس اطلاعات متنی محتوا را در نواحی خاص تصویر تولید کنند و برای کاربردهایی مانند روتوش تصاویر یا تغییر ویژگیهای موضوعی بهکار بروند. بهطور کلی، مدلهای انتشار متن به تصویر اخیراً توفیقهای قابل توجهی را در تولید تصاویر واقعگرایانه و جذاب داشتهاند.
چارچوب HD-Painter با معرفی لایه توجه درونگرا آگاهانه یا PAINtA به اطلاعات سریع در تصویر استفاده میکند تا امتیازات توجه را افزایش داده و ترازبندی متن بهبود یابد. این لایه از شرطیسازی متنی برای کاهش تأثیر اطلاعات غیرفوری از منطقه تصویر استفاده میکند و در عین حال به افزایش سهم پیکسلهای شناختهشده از درخواست میپردازد.
برای حل مشکلات مربوط به اجرای مکانیسم هدایت پسهک پس از وقوع وانیل، چارچوب HD-Painter از یک راهنمای امتیاز توجه مجدد وزن یا RASG استفاده میکند. این رویکرد یک استراتژی نمونهگیری پسهک را با مولفه DDIM یکپارچه کرده و امکان بهبود نتایج بصری در نقاشی را فراهم میآورد.
این ترکیب از روشهای مختلف در چارچوب HD-Painter، مشکلات بیتوجهی سریع در دو سناریو مختلف را حل نموده و ترازبندی متنی و تولید تصاویر بهبود یافتهای را ارائه میدهد.
چارچوب HD-Painter با ادغام مؤلفههای RASG و PAINtA، از دیگر مدلهای پیشرفته رنگآمیزی و انتشار متن به تصویر تفاوتهای قابل توجهی دارد. این چارچوب از مزایای حل مشکل بیتوجهی سریع را با تکمیل تصویر متنهای هدایتشده به وسیله لایه توجه درونگرا PAINtA دارد. همچنین، از مزایای بهبود همترازی متن با پیادهسازی لایه RASG برخوردار است.
یکی از ویژگیهای بارز چارچوب HD-Painter، عملکرد plug and play مؤلفههای RASG و PAINtA است که این چارچوب را با مدلهای رنگآمیزی پایه انتشار سازگار میسازد. همچنین، با بهرهمندی از تکنیکهای ترکیبی تکرار شونده و استفاده از قابلیتهای مدلهای انتشار با وضوح بالا، HD-Painter موفق به رنگآمیزی با وضوح حداکثر 2K میشود.
از این رو، HD-Painter با تلاش برای حل مسائل موجود در چارچوبهای موجود، بهبود ترازبندی متنی و تولید تصاویر با وضوح بالا را ممکن ساخته و یک خط لوله تکمیل تصویر با هدایت متن بدون نیاز به آموزش ارائه میدهد.
انتشار پایدار و رنگ آمیزی پایدار
Stable Diffusion یک مدل انتشار است که در فضای پنهان یک رمزگذار خودکار عمل میکند. برای تولید تصاویر از متن، این چارچوب از یک دستور متنی برای هدایت فرآیند استفاده میکند. تابع راهنما ساختاری مشابه به معماری UNet دارد و لایههای توجه متقابل آن با اعلانهای متنی مشروط میشوند. علاوه بر این، مدل Stable Diffusion میتواند با تغییرات و تنظیمات دقیق، نقاشی درون تصویر را انجام دهد.
برای دستیابی به این هدف، ویژگیهای تصویر با ماسک باینری کوچک که توسط رمزگذار ایجاد شدهاند، به پنهانها متصل میشوند. سپس تانسور حاصل به معماری UNet منتقل میشود تا نویز تخمینی را بدست آورد. در مرحله بعد، این فریمورک فیلترهای کانولوشنال جدید افزوده شده را با صفر مقداردهی میکند، در حالی که باقیمانده UNet با استفاده از نقاط بازرسی از پیش آموزش دیده از مدل انتشار پایدار مقداردهی اولیه میشود.
شکل بالا نمای کلی چارچوب HD-Painter دو مرحله اصلی را نشان میدهد. در مرحله اول، این فریمورک نقاشی تصویر را با هدایت متن پیادهسازی میکند، و در مرحله دوم، مدل وضوح ویژه خاصی از خروجی را رنگآمیزی میکند.
برای پرکردن مناطق مختلف و سازگار با اعلان ورودی، مدل یک مدل انتشار inpainting از قبل آموزشدیده را انتخاب کرده و لایههای خودتوجهی را با لایههای PAINtA جایگزین میکند. همچنین، از مکانیسم RASG برای اجرای فرآیند انتشار به عقب استفاده میکند.
سپس، مدل نهفته تخمینی نهایی را رمزگشایی کرده و به ایجاد تصویر نقاشی منجر میشود. در مرحله بعد، HD-Painter مدل انتشار فوقالعاده پایدار را برای رنگآمیزی تصویر با اندازه اصلی پیادهسازی میکند و فرآیند انتشار به عقب چارچوب Stable Diffusion را مشروط به تصویر ورودی با وضوح پایین اجرا میکند.
در این فرآیند، مدل پیشبینیهای حذفشده را با رمزگذاری تصویر اصلی پس از هر مرحله در ناحیه شناخته شده ترکیب میکند و پنهانهای بعدی را استخراج میکند. در نهایت، مدل نهفته را رمزگشایی کرده و ترکیب پواسون را برای جلوگیری از مصنوعات لبه اجرا میکند.
توجه درونگرا آگاهانه سریع یا PAINtA
مدلهای inpainting مانند Stable Inpainting به زمینه بصری در اطراف ناحیه inpainting وابسته هستند و تا حد زیادی درخواستهای ورودی کاربر را نادیده میگیرند. این مسئله به دو دسته تسلط شی نزدیک و تسلط پسزمینه قابل تقسیم است، که تجربه کاربر را تحت تأثیر قرار میدهد. موضوع تسلط بافت بصری بر اعلانهای ورودی ممکن است ناشی از محدود بودن به فضای تصویری بدون سریع لایههای توجه خود باشد.
برای حل این مشکل، چارچوب HD-Painter توجه درونگرا آگاهانه یا PAINtA را معرفی میکند. این مولفه از ماتریسهای توجه متقاطع و یک ماسک نقاشی برای کنترل خروجی لایههای توجه به خود در ناحیه ناشناخته استفاده میکند.
ابتدا، مولفه توجه درونگرا آگاهانه لایههای طرح ریزی را اعمال کرده و کلید، مقادیر و پرس و جوها را همراه با ماتریس شباهت دریافت میکند. سپس، این مدل امتیاز توجه پیکسلهای شناختهشده را تنظیم میکند تا تأثیر قوی ناحیه شناختهشده بر ناحیه ناشناخته را کاهش دهد و یک ماتریس شباهت جدید را با استفاده از اهرم متنی تعریف میکند.
راهنمای امتیاز توجه مجدد وزن یا RASG
چارچوب HD-Painter از یک روش راهنمایی نمونهگیری پسهک بهره میبرد تا هم ترازی نسل با درخواستهای متنی را بهبود دهد. این رویکرد همراه با یک تابع هدف، از روش هدایت نمونهگیری پسهک با هدف استفاده از ویژگیهای تقسیمبندی واژگان باز لایههای توجه متقابل است. با این حال، این رویکرد راهنمایی پس از وانیل پتانسیل تغییر دامنه انتشار پنهان را دارد که ممکن است کیفیت تصویر تولید شده را کاهش دهد.
برای مقابله با این مشکل، مدل HD-Painter مکانیسم Reweighting Attention Score Guidance یا RASG را پیادهسازی میکند. این مکانیزم، مکانیسم وزندهی مجدد گرادیان را معرفی میکند که منجر به حفظ دامنه پنهان میشود.
نتیجه گیری
در این مقاله، ما درباره HD-Painter صحبت کردهایم، یک روش آموزش متن رایگان با هدایت نقاشی داخلی با وضوح بالا که به چالشهای تجربه شده در چارچوبهای نقاشی موجود، از جمله نادیده گرفتن سریع و تسلط اشیاء در نزدیکی و پسزمینه، پرداخته است. چارچوب HD-Painter یک لایه توجه درونگرا آگاهانه سریع یا PAINtA را پیادهسازی میکند که از اطلاعات سریع برای افزایش امتیازات توجه به خود استفاده میکند که در نهایت منجر به تولید تراز متن بهتر میشود.
برای بهبود انسجام اعلان حتی بیشتر، مدل HD-Painter یک راهنمای امتیاز توجه مجدد یا رویکرد RASG را معرفی میکند که یک استراتژی نمونهگیری پسهک را به شکل کلی جزء DDIM به طور یکپارچه برای جلوگیری از جابجاییهای نهفته توزیع ادغام میکند. علاوه بر این، چارچوب HD-Painter یک تکنیک فوقالعاده تخصصی سفارشیسازی شده برای نقاشی داخلی را معرفی میکند که منجر به گسترش به مقیاسهای بزرگتر میشود و به چارچوب HD-Painter اجازه میدهد تا مناطق گمشده در تصویر را با وضوح تا 2K تکمیل کند.