HD-Painter ، رنگ آمیزی تصویر وضوح بالا با دستورات متنی

1402/12/13
طراحي و ديزاين
3912
0
0

مدل‌های انتشار بدون نظارت و تکنیک‌های متن به تصویر واقعاً به دنیای هوش مصنوعی و یادگیری ماشینی ابزارهایی قدرتمند افزوده‌اند که تغییرات چشمگیری در کاربردهای واقعی ایجاد کرده‌اند. پس از توانمندی مدل‌های متن به تصویر، تکنیک‌های دستکاری تصویر بر پایه انتشار، امکانات زیادی را برای ما فراهم کرده‌اند. این امکانات شامل تولید تصاویر قابل کنترل، ترکیب تخصصی و شخصی‌سازی تصاویر، ویرایش تصاویر در سطح شی، اعمال تغییرات شرطی و ویرایش تصاویر فوری می‌شوند و در صنعت بینایی کامپیوتر به کار گرفته می‌شوند.

با این وجود، چارچوب‌های متن به تصویر، به‌ویژه چارچوب‌های نقاشی متن به تصویر، هنوز در زمینه‌های بالقوه‌ای برای توسعه دارند. این شامل توانایی درک صحنه‌های جهانی، به‌ویژه هنگام حذف نویز تصویر در مراحل زمانی با انتشار بالا است. برای حل این مسئله، HD-Painter معرفی شده است، که یک چارچوب بدون آموزش کاملاً جدید است. این چارچوب از یک لایه توجه درونگرا آگاهانه با نام PAINtA استفاده می‌کند که از اطلاعات سریع برای افزایش امتیازات توجه به خود استفاده می‌کند و باعث بهبود تولید تصاویر با وضوح بالا می‌شود.

برای افزایش انسجام اعلان، مدل HD-Painter از یک رویکرد جدید به نام "هدایت امتیاز توجه مجدد" (RASG) استفاده می‌کند. این رویکرد یک استراتژی نمونه‌گیری پس‌هک را با مولفه DDIM به یکپارچه می‌کند و از تغییرات پنهان خارج از توزیع جلوگیری می‌کند. علاوه بر این، چارچوب HD-Painter یک تکنیک تخصصی دارد که برای نقاشی داخلی سفارشی ساخته شده است. این تکنیک به مدل امکان می‌دهد تا مقیاس‌های بزرگ‌تر را پوشش دهد و مناطق از دست رفته در تصویر با وضوح تا 2K را بهبود بخشد.

رنگ آمیزی تصاویر با دستورات متنی

مدل‌های تولید متن به تصویر به تازگی موضوع مهمی در زمینه هوش مصنوعی و یادگیری عمیق شده‌اند. این مدل‌ها، از جمله DALL-E، Imagen، و Stable Diffusion، توانایی تولید تصاویر جذاب و با کیفیت با استفاده از متن وارد شده را نشان داده‌اند. آن‌ها از تکنیک‌های مبتنی بر انتشار به عقب برای ترکیب نواحی ناشناخته با نواحی شناخته شده در تصاویر استفاده می‌کنند. با این حال، مشکلاتی نظیر درک صحنه جهانی و تحت فرآیند حذف نویز در این مدل‌ها وجود دارد.

برای بهبود این مسائل، محققان درحال تلاش برای اصلاح مدل‌های انتشار متن به تصویر هستند. آن‌ها قصد دارند با تنظیم مدل‌ها و اضافه کردن اطلاعات زمینه اضافی، این مشکلات را حل کنند. همچنین، نقاشی درونی با هدایت متن و تکمیل تصویر با هدایت متن، موضوعات تحقیقاتی اصلی شده‌اند. این مدل‌ها می‌توانند بر اساس اطلاعات متنی محتوا را در نواحی خاص تصویر تولید کنند و برای کاربردهایی مانند روتوش تصاویر یا تغییر ویژگی‌های موضوعی به‌کار بروند. به‌طور کلی، مدل‌های انتشار متن به تصویر اخیراً توفیق‌های قابل توجهی را در تولید تصاویر واقع‌گرایانه و جذاب داشته‌اند.

چارچوب HD-Painter با معرفی لایه توجه درونگرا آگاهانه یا PAINtA به اطلاعات سریع در تصویر استفاده می‌کند تا امتیازات توجه را افزایش داده و ترازبندی متن بهبود یابد. این لایه از شرطی‌سازی متنی برای کاهش تأثیر اطلاعات غیرفوری از منطقه تصویر استفاده می‌کند و در عین حال به افزایش سهم پیکسل‌های شناخته‌شده از درخواست می‌پردازد.

برای حل مشکلات مربوط به اجرای مکانیسم هدایت پس‌هک پس از وقوع وانیل، چارچوب HD-Painter از یک راهنمای امتیاز توجه مجدد وزن یا RASG استفاده می‌کند. این رویکرد یک استراتژی نمونه‌گیری پس‌هک را با مولفه DDIM یکپارچه کرده و امکان بهبود نتایج بصری در نقاشی را فراهم می‌آورد.

این ترکیب از روش‌های مختلف در چارچوب HD-Painter، مشکلات بی‌توجهی سریع در دو سناریو مختلف را حل نموده و ترازبندی متنی و تولید تصاویر بهبود یافته‌ای را ارائه می‌دهد.

چارچوب HD-Painter با ادغام مؤلفه‌های RASG و PAINtA، از دیگر مدل‌های پیشرفته رنگ‌آمیزی و انتشار متن به تصویر تفاوت‌های قابل توجهی دارد. این چارچوب از مزایای حل مشکل بی‌توجهی سریع را با تکمیل تصویر متن‌های هدایت‌شده به وسیله لایه توجه درون‌گرا PAINtA دارد. همچنین، از مزایای بهبود هم‌ترازی متن با پیاده‌سازی لایه RASG برخوردار است.

یکی از ویژگی‌های بارز چارچوب HD-Painter، عملکرد plug and play مؤلفه‌های RASG و PAINtA است که این چارچوب را با مدل‌های رنگ‌آمیزی پایه انتشار سازگار می‌سازد. همچنین، با بهره‌مندی از تکنیک‌های ترکیبی تکرار شونده و استفاده از قابلیت‌های مدل‌های انتشار با وضوح بالا، HD-Painter موفق به رنگ‌آمیزی با وضوح حداکثر 2K می‌شود.

از این رو، HD-Painter با تلاش برای حل مسائل موجود در چارچوب‌های موجود، بهبود ترازبندی متنی و تولید تصاویر با وضوح بالا را ممکن ساخته و یک خط لوله تکمیل تصویر با هدایت متن بدون نیاز به آموزش ارائه می‌دهد.

انتشار پایدار و رنگ آمیزی پایدار

Stable Diffusion یک مدل انتشار است که در فضای پنهان یک رمزگذار خودکار عمل می‌کند. برای تولید تصاویر از متن، این چارچوب از یک دستور متنی برای هدایت فرآیند استفاده می‌کند. تابع راهنما ساختاری مشابه به معماری UNet دارد و لایه‌های توجه متقابل آن با اعلان‌های متنی مشروط می‌شوند. علاوه بر این، مدل Stable Diffusion می‌تواند با تغییرات و تنظیمات دقیق، نقاشی درون تصویر را انجام دهد.

برای دستیابی به این هدف، ویژگی‌های تصویر با ماسک باینری کوچک که توسط رمزگذار ایجاد شده‌اند، به پنهان‌ها متصل می‌شوند. سپس تانسور حاصل به معماری UNet منتقل می‌شود تا نویز تخمینی را بدست آورد. در مرحله بعد، این فریم‌ورک فیلترهای کانولوشنال جدید افزوده شده را با صفر مقداردهی می‌کند، در حالی که باقیمانده UNet با استفاده از نقاط بازرسی از پیش آموزش دیده از مدل انتشار پایدار مقداردهی اولیه می‌شود.

شکل بالا نمای کلی چارچوب HD-Painter دو مرحله اصلی را نشان می‌دهد. در مرحله اول، این فریم‌ورک نقاشی تصویر را با هدایت متن پیاده‌سازی می‌کند، و در مرحله دوم، مدل وضوح ویژه خاصی از خروجی را رنگ‌آمیزی می‌کند.

برای پرکردن مناطق مختلف و سازگار با اعلان ورودی، مدل یک مدل انتشار inpainting از قبل آموزش‌دیده را انتخاب کرده و لایه‌های خودتوجهی را با لایه‌های PAINtA جایگزین می‌کند. همچنین، از مکانیسم RASG برای اجرای فرآیند انتشار به عقب استفاده می‌کند.

سپس، مدل نهفته تخمینی نهایی را رمزگشایی کرده و به ایجاد تصویر نقاشی منجر می‌شود. در مرحله بعد، HD-Painter مدل انتشار فوق‌العاده پایدار را برای رنگ‌آمیزی تصویر با اندازه اصلی پیاده‌سازی می‌کند و فرآیند انتشار به عقب چارچوب Stable Diffusion را مشروط به تصویر ورودی با وضوح پایین اجرا می‌کند.

در این فرآیند، مدل پیش‌بینی‌های حذف‌شده را با رمزگذاری تصویر اصلی پس از هر مرحله در ناحیه شناخته شده ترکیب می‌کند و پنهان‌های بعدی را استخراج می‌کند. در نهایت، مدل نهفته را رمزگشایی کرده و ترکیب پواسون را برای جلوگیری از مصنوعات لبه اجرا می‌کند.

توجه درونگرا آگاهانه سریع یا PAINtA

مدل‌های inpainting مانند Stable Inpainting به زمینه بصری در اطراف ناحیه inpainting وابسته هستند و تا حد زیادی درخواست‌های ورودی کاربر را نادیده می‌گیرند. این مسئله به دو دسته تسلط شی نزدیک و تسلط پس‌زمینه قابل تقسیم است، که تجربه کاربر را تحت تأثیر قرار می‌دهد. موضوع تسلط بافت بصری بر اعلان‌های ورودی ممکن است ناشی از محدود بودن به فضای تصویری بدون سریع لایه‌های توجه خود باشد.

برای حل این مشکل، چارچوب HD-Painter توجه درونگرا آگاهانه یا PAINtA را معرفی می‌کند. این مولفه از ماتریس‌های توجه متقاطع و یک ماسک نقاشی برای کنترل خروجی لایه‌های توجه به خود در ناحیه ناشناخته استفاده می‌کند.

ابتدا، مولفه توجه درونگرا آگاهانه لایه‌های طرح ریزی را اعمال کرده و کلید، مقادیر و پرس و جوها را همراه با ماتریس شباهت دریافت می‌کند. سپس، این مدل امتیاز توجه پیکسل‌های شناخته‌شده را تنظیم می‌کند تا تأثیر قوی ناحیه شناخته‌شده بر ناحیه ناشناخته را کاهش دهد و یک ماتریس شباهت جدید را با استفاده از اهرم متنی تعریف می‌کند.

راهنمای امتیاز توجه مجدد وزن یا RASG

چارچوب HD-Painter از یک روش راهنمایی نمونه‌گیری پس‌هک بهره می‌برد تا هم ترازی نسل با درخواست‌های متنی را بهبود دهد. این رویکرد همراه با یک تابع هدف، از روش هدایت نمونه‌گیری پس‌هک با هدف استفاده از ویژگی‌های تقسیم‌بندی واژگان باز لایه‌های توجه متقابل است. با این حال، این رویکرد راهنمایی پس از وانیل پتانسیل تغییر دامنه انتشار پنهان را دارد که ممکن است کیفیت تصویر تولید شده را کاهش دهد.

برای مقابله با این مشکل، مدل HD-Painter مکانیسم Reweighting Attention Score Guidance یا RASG را پیاده‌سازی می‌کند. این مکانیزم، مکانیسم وزن‌دهی مجدد گرادیان را معرفی می‌کند که منجر به حفظ دامنه پنهان می‌شود.

نتیجه گیری

در این مقاله، ما درباره HD-Painter صحبت کرده‌ایم، یک روش آموزش متن رایگان با هدایت نقاشی داخلی با وضوح بالا که به چالش‌های تجربه شده در چارچوب‌های نقاشی موجود، از جمله نادیده گرفتن سریع و تسلط اشیاء در نزدیکی و پس‌زمینه، پرداخته است. چارچوب HD-Painter یک لایه توجه درونگرا آگاهانه سریع یا PAINtA را پیاده‌سازی می‌کند که از اطلاعات سریع برای افزایش امتیازات توجه به خود استفاده می‌کند که در نهایت منجر به تولید تراز متن بهتر می‌شود.

برای بهبود انسجام اعلان حتی بیشتر، مدل HD-Painter یک راهنمای امتیاز توجه مجدد یا رویکرد RASG را معرفی می‌کند که یک استراتژی نمونه‌گیری پس‌هک را به شکل کلی جزء DDIM به طور یکپارچه برای جلوگیری از جابجایی‌های نهفته توزیع ادغام می‌کند. علاوه بر این، چارچوب HD-Painter یک تکنیک فوق‌العاده تخصصی سفارشی‌سازی شده برای نقاشی داخلی را معرفی می‌کند که منجر به گسترش به مقیاس‌های بزرگ‌تر می‌شود و به چارچوب HD-Painter اجازه می‌دهد تا مناطق گمشده در تصویر را با وضوح تا 2K تکمیل کند.