شبکههای متخاصم مولد یا GAN ها، اخیراً در صنعت ویرایش تصویر به شدت مورد توجه قرار گرفتهاند. EditGAN یکی از این GAN هاست که در علم هوش مصنوعی و یادگیری ماشین به شدت محبوب شده است. این روش جدید توانایی ویرایش تصاویر با دقت و کیفیت بالا را داراست.
در ادامه، به توضیحات بیشتر درباره مدل EditGAN خواهیم پرداخت و توضیح خواهیم داد که چرا ممکن است به عنوان یک نقطه عطف مهم در صنعت ویرایش تصویر معنایی محسوب شود.
قبل از اینکه به جزئیات EditGAN بپردازیم، مهم است که بفهمیم چرا این مدل اهمیت دارد و چگونه میتواند گامی مهم به سوی پیشرفت در حوزه ویرایش تصویر معنایی باشد.
چرا EditGAN ?
اگرچه معماریهای سنتی GAN به پیشرفت قابل توجهی در صنعت ویرایش تصویر مبتنی بر هوش مصنوعی کمک کردهاند، اما برخی چالشهای اساسی در ایجاد این معماری از ابتدا وجود دارد.
در مرحله آموزش، یک معماری GAN به مقدار زیادی از دادههای برچسب دار با حاشیه نویسی تقسیم بندی معنایی نیاز دارد. این معماریها تنها قادر به ارائه کنترل سطح بالا هستند و اغلب تنها بین تصاویر جلو و عقب تفاوت ایجاد میکنند. این مشاهده نشان میدهد که معماریهای سنتی GAN، در استقرار در مقیاس وسیع به بهترین نحو موثر نیستند. این نقص در کارایی معماریهای سنتی GAN، انگیزه اصلی برای معرفی EditGAN توسط شرکت NVIDIA در سال 2022 بوده است.
EditGAN به عنوان یک روش مؤثر برای ویرایش معنایی با دقت و کیفیت بالا مطرح شده است. این مدل به کاربران امکان ویرایش تصاویر با تغییر ماسکهای تقسیم بندی بسیار دقیق یک تصویر را میدهد. یکی از دلایلی که EditGAN به عنوان یک روش مقیاسپذیر در ویرایش تصاویر معنایی شناخته شده است، معماری منحصر به فرد آن است.
مدل EditGAN بر اساس یک چارچوب GAN ساخته شده است که تصاویر و تقسیم بندی معنایی آنها را به طور همزمان مدل میکند و تنها به تعداد محدودی از دادههای آموزشی برچسبدار یا حاشیه نویسی نیاز دارد. توسعهدهندگان EditGAN سعی داشتهاند تصویر را در فضای پنهان GAN نمایش دهند تا با بهینهسازی کد پنهان مشروط به ویرایش تقسیمبندی، تغییرات معنایی مطلوبی ایجاد شود. همچنین، برای بهینهسازی مصرف منابع، مدل تلاش میکند تا "بردارهای ویرایش" را در فضای پنهانی که ویرایشها را نمایان میسازد، پیدا کند.
معماری فریمورک EditGAN به این مدل این امکان را میدهد که تعداد دلخواهی از بردارهای ویرایش را یاد بگیرد، سپس این ویرایشها را با سرعت و کارایی بالا بهطور مستقیم بر روی تصاویر دیگر پیادهسازی یا اعمال کند. همچنین، نتایج آزمایشها نشان میدهد که EditGAN قادر است تصاویر را با جزئیاتی که قبلاً دیده نشدهاند ویرایش کند و به همراه حفظ کیفیت تصویر.
در خلاصه، EditGAN به عنوان اولین چارچوب ویرایش تصویر مبتنی بر GAN، امکانات زیر را ارائه میدهد:
- اجازه ویرایش با دقت بسیار بالا با تعداد محدودی از دادههای برچسبگذاری شده
- توانایی مستقر شدن به بهترین شکل در سناریوهای بلادرنگ
- امکان ترکیب بندی برای چندین ویرایش به صورت همزمان
- قابلیت کار با تصاویر GAN تولید شده و جاسازی شده، حتی در مواقعی که تصاویر خارج از دامنه مسئله قرار دارند.
ویرایش تصویر معنایی با دقت بالا با EditGAN :
StyleGAN2 یک چارچوب پیشرفته GAN برای سنتز تصاویر است و جزء اصلی تولید تصویر در EditGAN محسوب میشود. این چارچوب از کدهای پنهانی استفاده میکند که از یک مجموعه توزیع نرمال چند متغیره گرفته شده و آن را به تصاویر واقعی نگاشت میدهد.
StyleGAN2 به عنوان یک مدل مولد عمیق طراحی شده است که با درک معنایی تصاویر، توانمندی بالایی در ترکیب تصاویر با کیفیت بسیار بالا دارد. این مدل با استفاده از کد پنهانی از توزیع نرمال چند متغیره، تصاویری با ویژگیها و جزئیات چشمگیر ایجاد میکند.
مدل EditGAN با استفاده از یک رمزگذار و بهینهسازی، تصویری را در فضای پنهان GAN جاسازی میکند. ابتدا با استفاده از یک رمزگذار، بخشبندی تصویر جدید را انجام داده و سپس این شاخه تقسیمبندی را با استفاده از بهینهسازی آموزش میدهد. این فریمورک ادامه کار روی کارهای قبلی خود را میپذیرد و یک رمزگذار را آموزش میدهد تا تصاویر را در فضای پنهان GAN جاسازی کند.
هدف اصلی در اینجا آموزش رمزگذار است که از تلفات ساختاری L2 و LPIPS مبتنی بر پیکسل استاندارد، با استفاده از نمونههای GAN و دادههای آموزشی واقعی، دستیابی به جاسازی بهینه تصاویر است. همچنین، زمانی که مدل با نمونههای GAN کار میکند، رمزگذار را با استفاده از کدهای پنهان به صورت صریح تنظیم میکند.
در نهایت، این مدل تصاویر را از مجموعه داده برچسبگذاری شده با بخشبندی معنایی در فضای پنهان جاسازی میکند و از تلفات آنتروپی متقاطع برای آموزش شاخه تقسیمبندی مولد استفاده میکند.
استفاده از ویرایش بخش بندی برای یافتن معناشناسی در فضای پنهان
هدف اصلی EditGAN، استفاده از توزیع مشترک بین بخشبندیهای معنایی و تصاویر، به منظور ویرایش تصویر با دقت بالا است. در این فرآیند، فرض میشود که یک تصویر مورد نظر (x) نیاز به ویرایش دارد. بنابراین، مدل تصویر را در فضای پنهان EditGAN جاسازی میکند یا از نمونههای تصاویر خود مدل استفاده میکند.
سپس، با تولید شاخه تقسیمبندی (y) یا بخشبندی مربوطه، زیرا که هر دو تصویر RGB و بخشبندی ها همان کدهای پنهان w را به اشتراک میگذارند، اقدام به ویرایش تصویر میکند. توسعهدهندگان میتوانند از هر ابزار برچسبگذاری یا نقاشی دیجیتالی برای اصلاح تقسیمبندی استفاده کنند و آنها را مطابق با نیازهای خود به صورت دستی ویرایش کنند. این فرآیند امکان پذیری افزوده برای کنترل دقیق بر تغییرات تصویر فراهم میکند و به توسعهدهندگان امکان ویرایش دقیق و سفارشی را با استفاده از ابزارهای مختلف ارائه میدهد.
بردارهای ویرایش فضای پنهان که از طریق بهینهسازی به دست میآیند، میتوانند از نظر معنایی معنیدار توصیف شوند و اغلب با ویژگیهای مختلف جدا میشوند. بنابراین، برای ویرایش یک تصویر جدید، مدل میتواند مستقیماً تصویر را در فضای پنهان جاسازی کند و بدون انجام دوباره بهینهسازی از ابتدا، به صورت مستقیم همان عملیات ویرایشی که مدل قبلاً آموخته بود را انجام دهد. با اطمینان میتوان گفت که بردارهای ویرایشی که مدل یاد میگیرد، بهینهسازی را که برای ویرایش اولیه تصویر ضروری بود، مستهلک میکند.
لازم به ذکر است که توسعهدهندگان هنوز به طور کامل گسستگی را پوشش ندادهاند و بردارهای ویرایش اغلب هنگام استفاده از تصاویر دیگر بهترین نتایج را نشان نمیدهند. با این حال، میتوان با حذف مصنوعات ویرایشی از قسمتهای دیگر تصویر با انجام چند مرحله بهینهسازی اضافی در طول زمان تست، این مشکل را غلبه کرد.
بر اساس آموختههای فعلی ما، چارچوب EditGAN میتواند برای ویرایش تصاویر در سه حالت مختلف استفاده شود:
1. **ویرایش زمان واقعی با ویرایش بردارها:**
برای تصاویری که بومیسازی شده و از هم گسیخته شدهاند، مدل تصاویر را با اعمال بردارهای ویرایشی که قبلاً با مقیاسهای مختلف آموختهاند ویرایش میکند و تصاویر را با نرخهای تعاملی دستکاری میکند.
2. **استفاده از پالایش خود نظارتی برای ویرایش مبتنی بر برداری:**
برای ویرایش تصاویر موضعی که کاملاً با سایر بخشهای تصویر جدا نشدهاند، مدل ویرایش تصویر را با استفاده از بردارهای ویرایشی که قبلاً آموختهاید، اولیه میکند و با انجام چند مرحله بهینهسازی اضافی در طول زمان آزمایش، مصنوعات ویرایش را حذف میکند.
3. **ویرایش مبتنی بر بهینهسازی:**
برای انجام در مقیاس بزرگ و با ویرایشهای خاص تصویر، مدل از همان ابتدا بهینهسازی را انجام میدهد زیرا بردارهای ویرایشی را نمیتوان برای انجام این نوع انتقالها به تصاویر دیگر استفاده کرد.