ویرایش تصاویر با دقت بالا با EditGAN

1402/8/27
ويرايش عکس
5720
0
0

شبکه‌های متخاصم مولد یا GAN ها، اخیراً در صنعت ویرایش تصویر به شدت مورد توجه قرار گرفته‌اند. EditGAN یکی از این GAN هاست که در علم هوش مصنوعی و یادگیری ماشین به شدت محبوب شده است. این روش جدید توانایی ویرایش تصاویر با دقت و کیفیت بالا را داراست.

در ادامه، به توضیحات بیشتر درباره مدل EditGAN خواهیم پرداخت و توضیح خواهیم داد که چرا ممکن است به عنوان یک نقطه عطف مهم در صنعت ویرایش تصویر معنایی محسوب شود.

قبل از اینکه به جزئیات EditGAN بپردازیم، مهم است که بفهمیم چرا این مدل اهمیت دارد و چگونه می‌تواند گامی مهم به سوی پیشرفت در حوزه ویرایش تصویر معنایی باشد.

چرا EditGAN ?

اگرچه معماری‌های سنتی GAN به پیشرفت قابل توجهی در صنعت ویرایش تصویر مبتنی بر هوش مصنوعی کمک کرده‌اند، اما برخی چالش‌های اساسی در ایجاد این معماری از ابتدا وجود دارد.

در مرحله آموزش، یک معماری GAN به مقدار زیادی از داده‌های برچسب دار با حاشیه نویسی تقسیم بندی معنایی نیاز دارد. این معماری‌ها تنها قادر به ارائه کنترل سطح بالا هستند و اغلب تنها بین تصاویر جلو و عقب تفاوت ایجاد می‌کنند. این مشاهده نشان می‌دهد که معماری‌های سنتی GAN، در استقرار در مقیاس وسیع به بهترین نحو موثر نیستند. این نقص در کارایی معماری‌های سنتی GAN، انگیزه اصلی برای معرفی EditGAN توسط شرکت NVIDIA در سال 2022 بوده است.

EditGAN به عنوان یک روش مؤثر برای ویرایش معنایی با دقت و کیفیت بالا مطرح شده است. این مدل به کاربران امکان ویرایش تصاویر با تغییر ماسک‌های تقسیم بندی بسیار دقیق یک تصویر را می‌دهد. یکی از دلایلی که EditGAN به عنوان یک روش مقیاس‌پذیر در ویرایش تصاویر معنایی شناخته شده است، معماری منحصر به فرد آن است.

مدل EditGAN بر اساس یک چارچوب GAN ساخته شده است که تصاویر و تقسیم بندی معنایی آن‌ها را به طور همزمان مدل می‌کند و تنها به تعداد محدودی از داده‌های آموزشی برچسب‌دار یا حاشیه نویسی نیاز دارد. توسعه‌دهندگان EditGAN سعی داشته‌اند تصویر را در فضای پنهان GAN نمایش دهند تا با بهینه‌سازی کد پنهان مشروط به ویرایش تقسیم‌بندی، تغییرات معنایی مطلوبی ایجاد شود. همچنین، برای بهینه‌سازی مصرف منابع، مدل تلاش می‌کند تا "بردارهای ویرایش" را در فضای پنهانی که ویرایش‌ها را نمایان می‌سازد، پیدا کند.

معماری فریمورک EditGAN به این مدل این امکان را می‌دهد که تعداد دلخواهی از بردارهای ویرایش را یاد بگیرد، سپس این ویرایش‌ها را با سرعت و کارایی بالا به‌طور مستقیم بر روی تصاویر دیگر پیاده‌سازی یا اعمال کند. همچنین، نتایج آزمایش‌ها نشان می‌دهد که EditGAN قادر است تصاویر را با جزئیاتی که قبلاً دیده نشده‌اند ویرایش کند و به همراه حفظ کیفیت تصویر.

در خلاصه، EditGAN به عنوان اولین چارچوب ویرایش تصویر مبتنی بر GAN، امکانات زیر را ارائه می‌دهد:
- اجازه ویرایش با دقت بسیار بالا با تعداد محدودی از داده‌های برچسب‌گذاری شده
- توانایی مستقر شدن به بهترین شکل در سناریوهای بلادرنگ
- امکان ترکیب بندی برای چندین ویرایش به صورت همزمان
- قابلیت کار با تصاویر GAN تولید شده و جاسازی شده، حتی در مواقعی که تصاویر خارج از دامنه مسئله قرار دارند.

ویرایش تصویر معنایی با دقت بالا با EditGAN :

StyleGAN2 یک چارچوب پیشرفته GAN برای سنتز تصاویر است و جزء اصلی تولید تصویر در EditGAN محسوب می‌شود. این چارچوب از کدهای پنهانی استفاده می‌کند که از یک مجموعه توزیع نرمال چند متغیره گرفته شده و آن را به تصاویر واقعی نگاشت می‌دهد.

StyleGAN2 به عنوان یک مدل مولد عمیق طراحی شده است که با درک معنایی تصاویر، توانمندی بالایی در ترکیب تصاویر با کیفیت بسیار بالا دارد. این مدل با استفاده از کد پنهانی از توزیع نرمال چند متغیره، تصاویری با ویژگی‌ها و جزئیات چشمگیر ایجاد می‌کند.

مدل EditGAN با استفاده از یک رمزگذار و بهینه‌سازی، تصویری را در فضای پنهان GAN جاسازی می‌کند. ابتدا با استفاده از یک رمزگذار، بخش‌بندی تصویر جدید را انجام داده و سپس این شاخه تقسیم‌بندی را با استفاده از بهینه‌سازی آموزش می‌دهد. این فریمورک ادامه کار روی کارهای قبلی خود را می‌پذیرد و یک رمزگذار را آموزش می‌دهد تا تصاویر را در فضای پنهان GAN جاسازی کند.

هدف اصلی در اینجا آموزش رمزگذار است که از تلفات ساختاری L2 و LPIPS مبتنی بر پیکسل استاندارد، با استفاده از نمونه‌های GAN و داده‌های آموزشی واقعی، دست‌یابی به جاسازی بهینه تصاویر است. همچنین، زمانی که مدل با نمونه‌های GAN کار می‌کند، رمزگذار را با استفاده از کدهای پنهان به صورت صریح تنظیم می‌کند.

در نهایت، این مدل تصاویر را از مجموعه داده برچسب‌گذاری شده با بخش‌بندی معنایی در فضای پنهان جاسازی می‌کند و از تلفات آنتروپی متقاطع برای آموزش شاخه تقسیم‌بندی مولد استفاده می‌کند.

استفاده از ویرایش بخش بندی برای یافتن معناشناسی در فضای پنهان

هدف اصلی EditGAN، استفاده از توزیع مشترک بین بخش‌بندی‌های معنایی و تصاویر، به منظور ویرایش تصویر با دقت بالا است. در این فرآیند، فرض می‌شود که یک تصویر مورد نظر (x) نیاز به ویرایش دارد. بنابراین، مدل تصویر را در فضای پنهان EditGAN جاسازی می‌کند یا از نمونه‌های تصاویر خود مدل استفاده می‌کند.

سپس، با تولید شاخه تقسیم‌بندی (y) یا بخش‌بندی مربوطه، زیرا که هر دو تصویر RGB و بخش‌بندی ها همان کدهای پنهان w را به اشتراک می‌گذارند، اقدام به ویرایش تصویر می‌کند. توسعه‌دهندگان می‌توانند از هر ابزار برچسب‌گذاری یا نقاشی دیجیتالی برای اصلاح تقسیم‌بندی استفاده کنند و آن‌ها را مطابق با نیازهای خود به صورت دستی ویرایش کنند. این فرآیند امکان پذیری افزوده برای کنترل دقیق بر تغییرات تصویر فراهم می‌کند و به توسعه‌دهندگان امکان ویرایش دقیق و سفارشی را با استفاده از ابزارهای مختلف ارائه می‌دهد.

بردارهای ویرایش فضای پنهان که از طریق بهینه‌سازی به دست می‌آیند، می‌توانند از نظر معنایی معنی‌دار توصیف شوند و اغلب با ویژگی‌های مختلف جدا می‌شوند. بنابراین، برای ویرایش یک تصویر جدید، مدل می‌تواند مستقیماً تصویر را در فضای پنهان جاسازی کند و بدون انجام دوباره بهینه‌سازی از ابتدا، به صورت مستقیم همان عملیات ویرایشی که مدل قبلاً آموخته بود را انجام دهد. با اطمینان می‌توان گفت که بردارهای ویرایشی که مدل یاد می‌گیرد، بهینه‌سازی را که برای ویرایش اولیه تصویر ضروری بود، مستهلک می‌کند.

لازم به ذکر است که توسعه‌دهندگان هنوز به طور کامل گسستگی را پوشش نداده‌اند و بردارهای ویرایش اغلب هنگام استفاده از تصاویر دیگر بهترین نتایج را نشان نمی‌دهند. با این حال، می‌توان با حذف مصنوعات ویرایشی از قسمت‌های دیگر تصویر با انجام چند مرحله بهینه‌سازی اضافی در طول زمان تست، این مشکل را غلبه کرد.

بر اساس آموخته‌های فعلی ما، چارچوب EditGAN می‌تواند برای ویرایش تصاویر در سه حالت مختلف استفاده شود:

1. **ویرایش زمان واقعی با ویرایش بردارها:**
برای تصاویری که بومی‌سازی شده و از هم گسیخته شده‌اند، مدل تصاویر را با اعمال بردارهای ویرایشی که قبلاً با مقیاس‌های مختلف آموخته‌اند ویرایش می‌کند و تصاویر را با نرخ‌های تعاملی دستکاری می‌کند.

2. **استفاده از پالایش خود نظارتی برای ویرایش مبتنی بر برداری:**
برای ویرایش تصاویر موضعی که کاملاً با سایر بخش‌های تصویر جدا نشده‌اند، مدل ویرایش تصویر را با استفاده از بردارهای ویرایشی که قبلاً آموخته‌اید، اولیه می‌کند و با انجام چند مرحله بهینه‌سازی اضافی در طول زمان آزمایش، مصنوعات ویرایش را حذف می‌کند.

3. **ویرایش مبتنی بر بهینه‌سازی:**
برای انجام در مقیاس بزرگ و با ویرایش‌های خاص تصویر، مدل از همان ابتدا بهینه‌سازی را انجام می‌دهد زیرا بردارهای ویرایشی را نمی‌توان برای انجام این نوع انتقال‌ها به تصاویر دیگر استفاده کرد.