MagicDance ، رقص واقعی انسان با هوش مصنوعی

1402/10/13
ويدئو
14966
0
0

بینایی کامپیوتر یکی از زمینه‌های مورد بحث در صنعت هوش مصنوعی است که به لطف کاربردهای بالقوه آن در طیف گسترده‌ای از وظایف بلادرنگ است. در سال‌های اخیر، چارچوب‌های بینایی رایانه به سرعت پیشرفت کرده‌اند، با مدل‌های مدرن اکنون قادر به تجزیه و تحلیل ویژگی‌های چهره، اشیاء و موارد دیگر در سناریوهای بلادرنگ هستند. با وجود این قابلیت ها، انتقال حرکت انسان همچنان یک چالش بزرگ برای مدل های بینایی کامپیوتری است. این کار شامل هدف گیری مجدد حرکات صورت و بدن از تصویر یا ویدیوی منبع به تصویر یا ویدیوی هدف است. انتقال حرکت انسان به طور گسترده در مدل‌های بینایی رایانه‌ای برای استایل دادن به تصاویر یا ویدیوها، ویرایش محتوای چندرسانه‌ای، سنتز دیجیتال انسان و حتی تولید داده‌ها برای چارچوب‌های مبتنی بر ادراک استفاده می‌شود.

در این مقاله، ما به بررسی MagicDance متمرکز می‌شویم، یک مدل مبتنی بر انتشار که برای ایجاد انقلاب در انتقال حرکت انسان طراحی شده است. چارچوب MagicDance به طور خاص با هدف انتقال حالات و حرکات دو بعدی صورت انسان به ویدیوهای چالش برانگیز رقص انسان است. هدف آن تولید ویدیوهای رقص با ژست‌های جدید برای هویت‌های هدف خاص و در عین حال حفظ هویت اصلی است. چارچوب MagicDance از یک استراتژی آموزشی دو مرحله‌ای استفاده می‌کند که بر روی گسستگی حرکت انسان و عوامل ظاهری مانند رنگ پوست، حالات صورت و لباس تمرکز دارد. ما به بررسی معماری، عملکرد و عملکرد چارچوب MagicDance در مقایسه با سایر چارچوب‌های پیشرفته انتقال حرکت انسانی می‌پردازیم. بیایید این موضوع را به عمق ببریم.

MagicDance: انتقال واقعی حرکت انسان

همانطور که قبلاً ذکر شد، انتقال حرکت انسان یکی از پیچیده‌ترین کارهای بینایی کامپیوتری است، زیرا در انتقال حرکات و عبارات انسان از تصویر یا ویدیوی مبدأ به تصویر یا ویدیوی هدف بسیار پیچیده است. به طور سنتی، چارچوب‌های بینایی کامپیوتری با آموزش یک مدل تولیدی خاص کار شامل GAN یا شبکه‌های متخاصم مولد بر روی مجموعه داده‌های هدف برای حالات چهره و بدن، به انتقال حرکت انسان دست یافته‌اند. مطرح می کند. اگرچه آموزش و استفاده از مدل‌های مولد در برخی موارد نتایج رضایت‌بخشی را ارائه می‌دهد، اما معمولاً از دو محدودیت عمده رنج می‌برند.

آن‌ها به شدت به یک جزء تاب‌دهنده تصویر متکی هستند که در1. نتیجه آن‌ها اغلب برای درون‌یابی قسمت‌هایی از بدن که در تصویر منبع نامرئی نیستند، به دلیل تغییر در پرسپکتیو یا خود انسدادی تلاش می‌کنند.
آنها نمی توانند به سایر تصاویری که منبع خارجی هستند تعمیم 2. دهند که کاربردهای آنها را به ویژه در سناریوهای بلادرنگ در طبیعت محدود می کند.

بله، شما درست می‌فرمایید. مدل‌های انتشار مدرن با قابلیت‌های قدرتمند در زمینه تولید تصاویر به ویژه در شرایط مختلف، نشان داده‌اند که می‌توانند در وظایف مختلفی از جمله تولید ویدیو و نقاشی تصویر موفق عمل کنند. این مدل‌ها به دلیل قابلیت‌های یادگیری گسترده از مجموعه داده‌های تصویری در مقیاس وب، به عنوان ابزارهای کارآمد در زمینه‌های مختلف شناخته می‌شوند.

هرچند که این مدل‌ها می‌توانند برای انتقال حرکت انسانی نیز به‌کار روند، اما همانطور که اشاره کردید، ممکن است در کیفیت نهایی محتوا، حفظ هویت، یا مواجهه با ناهماهنگی‌های زمانی محدودیت‌هایی داشته باشند. استراتژی‌های آموزشی محدودیت‌های خود را دارند و مزایای تعمیم‌پذیری نسبت به چارچوب‌های GAN را نشان نمی‌دهند.

توسعه‌دهندگان MagicDance از یک رویکرد جدید به نام "کنترل ظاهر و کنترل حرکت" برای غلبه بر محدودیت‌ها و بهره‌مندی از پتانسیل چارچوب‌های انتشار و GAN در وظایف انتقال حرکت انسانی استفاده می‌کنند. این رویکرد دو قابلیت اساسی را مورد توجه قرار می‌دهد: کنترل ظاهر و کنترل حرکت.

با این رویکرد، MagicDance به دو مرحله تقسیم می‌شود:

1. **کنترل ظاهر:** در این مرحله، تمرکز بر روی حفظ هویت و کیفیت بصری برتر است. از این طریق، مدل سعی در ایجاد تصاویر واقعی و مشابه با حفظ جزئیات ظاهری انسان در وظیفه انتقال حرکت انسانی دارد.

2. **کنترل حرکت:** در این مرحله، مدل تلاش می‌کند حرکات انسانی را به درستی منتقل کند و نه تنها حفظ ظاهر بلکه حرکت‌های طبیعی انسان را نیز ایجاد کند. این برنامه مواجه با چالشی جدید برای ارائه خروجی دقیق در زمینه انتقال حرکت انسانی است.

این رویکرد نشان از تلاش برای ادغام بهتر این دو جنبه مهم دارد تا به نتایج بهتری در وظایف انتقال حرکت انسانی برسد.

تشکیل شکل بالا نشان دهنده نمای کلی چارچوب MagicDance است. در این شکل، این چارچوب از مدل انتشار پایدار برای ایجاد تصاویر در وظایف انتقال حرکت انسانی استفاده می‌کند. به علاوه، دو مؤلفه اصلی به نام‌های "مدل کنترل ظاهری" و "شبکه کنترل پوز" به عنوان ماژول‌های اضافی در این چارچوب حضور دارند.

1. **مدل کنترل ظاهری:** این ماژول از توجه به عنوان یک ابزار استفاده می‌کند تا راهنمایی ظاهری از مدل SD را از یک تصویر مرجع ارائه دهد. این کمک می‌کند تا جزئیات ظاهری انسان حفظ شود و در تولید تصاویر واقعی تر در وظیفه انتقال حرکت انسانی کمک کند.

2. **شبکه کنترل پوز:** این ماژول نقشی در هدایت بیان/پوزی دارد. به عبارت دیگر، این اجازه را می‌دهد که از یک تصویر یا ویدیوی شرطی برای مدل انتشار به عنوان ورودی استفاده کند و باعث تنظیم بهتر حرکات و بیان‌های تولید شده توسط مدل می‌شود.

همچنین، این چارچوب از یک استراتژی آموزشی چند مرحله‌ای بهره می‌برد که به مدل اجازه می‌دهد تا ماژول‌های فرعی را به طور مؤثر یاد بگیرد و توانایی کنترل پوز و ظاهر را از یکدیگر جدا کند. این استراتژی آموزشی به بهبود کارایی و دقت چارچوب در وظایف انتقال حرکت انسانی کمک می‌کند.

در خلاصه، چارچوب MagicDance یک فریم‌ورک جدید و کارآمد است که از کنترل ژست جدا شده از ظاهر و از پیش تمرین کنترل ظاهر بهره می‌برد. این فریم‌ورک توانایی کنترل حالات و حرکات واقعی صورت انسان را با استفاده از ورودی‌های مرتبط با وضعیت و تصاویر یا ویدیوهای مرجع فراهم می‌کند. MagicDance با معرفی یک ماژول توجه چند منبع، که به چارچوب انتشار پایدار UNet را راهنمایی می‌کند، محتوای انسانی را با ظاهری سازگار تولید می‌کند. این چارچوب قابل استفاده به عنوان افزونه یا جزء مناسب برای چارچوب Stable Diffusion است و همچنین سازگاری با وزن‌های مدل‌های موجود را تضمین می‌کند، بدون نیاز به تنظیم دقیق پارامترها.