بینایی کامپیوتر یکی از زمینههای مورد بحث در صنعت هوش مصنوعی است که به لطف کاربردهای بالقوه آن در طیف گستردهای از وظایف بلادرنگ است. در سالهای اخیر، چارچوبهای بینایی رایانه به سرعت پیشرفت کردهاند، با مدلهای مدرن اکنون قادر به تجزیه و تحلیل ویژگیهای چهره، اشیاء و موارد دیگر در سناریوهای بلادرنگ هستند. با وجود این قابلیت ها، انتقال حرکت انسان همچنان یک چالش بزرگ برای مدل های بینایی کامپیوتری است. این کار شامل هدف گیری مجدد حرکات صورت و بدن از تصویر یا ویدیوی منبع به تصویر یا ویدیوی هدف است. انتقال حرکت انسان به طور گسترده در مدلهای بینایی رایانهای برای استایل دادن به تصاویر یا ویدیوها، ویرایش محتوای چندرسانهای، سنتز دیجیتال انسان و حتی تولید دادهها برای چارچوبهای مبتنی بر ادراک استفاده میشود.
در این مقاله، ما به بررسی MagicDance متمرکز میشویم، یک مدل مبتنی بر انتشار که برای ایجاد انقلاب در انتقال حرکت انسان طراحی شده است. چارچوب MagicDance به طور خاص با هدف انتقال حالات و حرکات دو بعدی صورت انسان به ویدیوهای چالش برانگیز رقص انسان است. هدف آن تولید ویدیوهای رقص با ژستهای جدید برای هویتهای هدف خاص و در عین حال حفظ هویت اصلی است. چارچوب MagicDance از یک استراتژی آموزشی دو مرحلهای استفاده میکند که بر روی گسستگی حرکت انسان و عوامل ظاهری مانند رنگ پوست، حالات صورت و لباس تمرکز دارد. ما به بررسی معماری، عملکرد و عملکرد چارچوب MagicDance در مقایسه با سایر چارچوبهای پیشرفته انتقال حرکت انسانی میپردازیم. بیایید این موضوع را به عمق ببریم.
MagicDance: انتقال واقعی حرکت انسان
همانطور که قبلاً ذکر شد، انتقال حرکت انسان یکی از پیچیدهترین کارهای بینایی کامپیوتری است، زیرا در انتقال حرکات و عبارات انسان از تصویر یا ویدیوی مبدأ به تصویر یا ویدیوی هدف بسیار پیچیده است. به طور سنتی، چارچوبهای بینایی کامپیوتری با آموزش یک مدل تولیدی خاص کار شامل GAN یا شبکههای متخاصم مولد بر روی مجموعه دادههای هدف برای حالات چهره و بدن، به انتقال حرکت انسان دست یافتهاند. مطرح می کند. اگرچه آموزش و استفاده از مدلهای مولد در برخی موارد نتایج رضایتبخشی را ارائه میدهد، اما معمولاً از دو محدودیت عمده رنج میبرند.
آنها به شدت به یک جزء تابدهنده تصویر متکی هستند که در1. نتیجه آنها اغلب برای درونیابی قسمتهایی از بدن که در تصویر منبع نامرئی نیستند، به دلیل تغییر در پرسپکتیو یا خود انسدادی تلاش میکنند.
آنها نمی توانند به سایر تصاویری که منبع خارجی هستند تعمیم 2. دهند که کاربردهای آنها را به ویژه در سناریوهای بلادرنگ در طبیعت محدود می کند.
بله، شما درست میفرمایید. مدلهای انتشار مدرن با قابلیتهای قدرتمند در زمینه تولید تصاویر به ویژه در شرایط مختلف، نشان دادهاند که میتوانند در وظایف مختلفی از جمله تولید ویدیو و نقاشی تصویر موفق عمل کنند. این مدلها به دلیل قابلیتهای یادگیری گسترده از مجموعه دادههای تصویری در مقیاس وب، به عنوان ابزارهای کارآمد در زمینههای مختلف شناخته میشوند.
هرچند که این مدلها میتوانند برای انتقال حرکت انسانی نیز بهکار روند، اما همانطور که اشاره کردید، ممکن است در کیفیت نهایی محتوا، حفظ هویت، یا مواجهه با ناهماهنگیهای زمانی محدودیتهایی داشته باشند. استراتژیهای آموزشی محدودیتهای خود را دارند و مزایای تعمیمپذیری نسبت به چارچوبهای GAN را نشان نمیدهند.
توسعهدهندگان MagicDance از یک رویکرد جدید به نام "کنترل ظاهر و کنترل حرکت" برای غلبه بر محدودیتها و بهرهمندی از پتانسیل چارچوبهای انتشار و GAN در وظایف انتقال حرکت انسانی استفاده میکنند. این رویکرد دو قابلیت اساسی را مورد توجه قرار میدهد: کنترل ظاهر و کنترل حرکت.
با این رویکرد، MagicDance به دو مرحله تقسیم میشود:
1. **کنترل ظاهر:** در این مرحله، تمرکز بر روی حفظ هویت و کیفیت بصری برتر است. از این طریق، مدل سعی در ایجاد تصاویر واقعی و مشابه با حفظ جزئیات ظاهری انسان در وظیفه انتقال حرکت انسانی دارد.
2. **کنترل حرکت:** در این مرحله، مدل تلاش میکند حرکات انسانی را به درستی منتقل کند و نه تنها حفظ ظاهر بلکه حرکتهای طبیعی انسان را نیز ایجاد کند. این برنامه مواجه با چالشی جدید برای ارائه خروجی دقیق در زمینه انتقال حرکت انسانی است.
این رویکرد نشان از تلاش برای ادغام بهتر این دو جنبه مهم دارد تا به نتایج بهتری در وظایف انتقال حرکت انسانی برسد.
تشکیل شکل بالا نشان دهنده نمای کلی چارچوب MagicDance است. در این شکل، این چارچوب از مدل انتشار پایدار برای ایجاد تصاویر در وظایف انتقال حرکت انسانی استفاده میکند. به علاوه، دو مؤلفه اصلی به نامهای "مدل کنترل ظاهری" و "شبکه کنترل پوز" به عنوان ماژولهای اضافی در این چارچوب حضور دارند.
1. **مدل کنترل ظاهری:** این ماژول از توجه به عنوان یک ابزار استفاده میکند تا راهنمایی ظاهری از مدل SD را از یک تصویر مرجع ارائه دهد. این کمک میکند تا جزئیات ظاهری انسان حفظ شود و در تولید تصاویر واقعی تر در وظیفه انتقال حرکت انسانی کمک کند.
2. **شبکه کنترل پوز:** این ماژول نقشی در هدایت بیان/پوزی دارد. به عبارت دیگر، این اجازه را میدهد که از یک تصویر یا ویدیوی شرطی برای مدل انتشار به عنوان ورودی استفاده کند و باعث تنظیم بهتر حرکات و بیانهای تولید شده توسط مدل میشود.
همچنین، این چارچوب از یک استراتژی آموزشی چند مرحلهای بهره میبرد که به مدل اجازه میدهد تا ماژولهای فرعی را به طور مؤثر یاد بگیرد و توانایی کنترل پوز و ظاهر را از یکدیگر جدا کند. این استراتژی آموزشی به بهبود کارایی و دقت چارچوب در وظایف انتقال حرکت انسانی کمک میکند.
در خلاصه، چارچوب MagicDance یک فریمورک جدید و کارآمد است که از کنترل ژست جدا شده از ظاهر و از پیش تمرین کنترل ظاهر بهره میبرد. این فریمورک توانایی کنترل حالات و حرکات واقعی صورت انسان را با استفاده از ورودیهای مرتبط با وضعیت و تصاویر یا ویدیوهای مرجع فراهم میکند. MagicDance با معرفی یک ماژول توجه چند منبع، که به چارچوب انتشار پایدار UNet را راهنمایی میکند، محتوای انسانی را با ظاهری سازگار تولید میکند. این چارچوب قابل استفاده به عنوان افزونه یا جزء مناسب برای چارچوب Stable Diffusion است و همچنین سازگاری با وزنهای مدلهای موجود را تضمین میکند، بدون نیاز به تنظیم دقیق پارامترها.