آیا تولید فیلم کامل با هوش مصنوعی امکان پذیر است ؟

1403/7/10
ويدئو
313
0
0

با ظهور و پیشرفت ویدیوهای تولید شده توسط هوش مصنوعی، بسیاری از کارشناسان پیش‌بینی می‌کنند که یادگیری ماشین می‌تواند به مرگ صنعت سینما به شکل کنونی‌اش منجر شود. برخی تصور می‌کنند که سازندگان مستقل می‌توانند فیلم‌های پرفروش هالیوودی را از خانه یا با استفاده از سیستم‌های گرافیکی مبتنی بر ابر بسازند.

آیا این امکان‌پذیر است؟ حتی اگر ممکن باشد، آیا واقعاً به زودی محقق خواهد شد؟

اینکه آیا افراد توانایی ساخت فیلم‌هایی مانند آنچه اکنون داریم با شخصیت‌های ثابت، تداوم داستان و واقع‌گرایی کامل را پیدا می‌کنند، کاملاً ممکن و شاید حتی اجتناب‌ناپذیر است.

با این حال، چندین دلیل اساسی وجود دارد که نشان می‌دهد این احتمال به سادگی در سیستم‌های ویدیویی مبتنی بر مدل‌های یادگیری عمیق به وقوع نخواهد پیوست.

این واقعیت مهم است زیرا در حال حاضر، این دسته شامل تمامی سیستم‌های محبوب تبدیل متن به ویدیو (T2) و تصویر به ویدیو (I2V) می‌شود، از جمله مدل‌هایی مانند Minimax، Kling، Sora، Imagen، Luma، ویدیو ژنراتور آمازون، Runway ML، Kaiber و به زودی Adobe Firefly؛ و بسیاری دیگر.

در اینجا، ما به بررسی چشم‌انداز تولیدات کامل ویدیوهای هوش مصنوعی می‌پردازیم که توسط افراد خلق شده‌اند، با شخصیت‌های ثابت و جلوه‌های بصری که حداقل هم‌سطح با وضعیت فعلی هنر در هالیوود است.

بیایید نگاهی به برخی از بزرگ‌ترین موانع عملی در برابر این چالش‌ها بیندازیم.

1: شما نمی‌توانید یک عکس بعدی دقیق دریافت کنید

یکی از بزرگ‌ترین موانع در تولید ویدیو، مشکل ناهماهنگی روایی است. واقعیت این است که هیچ‌یک از سیستم‌های تولید ویدیویی که در حال حاضر وجود دارد، نمی‌تواند یک عکس «دنباله‌دار» واقعی و دقیق ایجاد کند.

این مشکل به دلیل این است که مدل‌های استفاده‌شده در این سیستم‌ها به نویز تصادفی متکی هستند، و این اصل اصلی نمی‌تواند به طور دقیق همان محتوا را دوباره تفسیر کند. به عبارت دیگر، نمی‌توان یک صحنه را از زوایای مختلف یا با توسعه یک عکس قبلی به تصویر بعدی تبدیل کرد و در عین حال سازگاری با عکس قبلی را حفظ کرد.

زمانی که از اعلان‌های متنی یا تصاویر «بذر» (seed) استفاده می‌شود، این اعلان‌ها به مدل کمک می‌کنند تا محتوای معنایی مناسب را از فضای آموزشی خود استخراج کند. اما به دلیل وجود «نویز تصادفی»، این فرایند هرگز به‌طور دقیق تکرار نمی‌شود.

این یعنی هویت افراد در ویدیو تغییر خواهد کرد و اشیا و محیط‌ها با عکس اولیه همخوانی نخواهند داشت.

به همین دلیل، کلیپ‌های ویروسی که جلوه‌های بصری شگفت‌انگیز و خروجی در سطح هالیوود را نشان می‌دهند، معمولاً یا به صورت تک‌شات هستند یا به صورت «مونتاژ ویترینی» از قابلیت‌های سیستم، جایی که هر عکس شخصیت‌ها و محیط‌های متفاوتی دارد.

مفهوم این مجموعه از نسل‌های ویدئویی موقت (که ممکن است در سیستم‌های تجاری غیرواقعی باشد) این است که سیستم اصلی می‌تواند روایت‌های پیوسته و قابل قبولی ایجاد کند.

برای توضیح این موضوع، می‌توان به تریلر یک فیلم اشاره کرد که تنها یک یا دو دقیقه از فیلم را نمایش می‌دهد، اما به مخاطب این احساس را می‌دهد که کل فیلم وجود دارد.

تنها سیستم‌هایی که در حال حاضر می‌توانند سازگاری روایی را در مدل‌های انتشار ارائه دهند، سیستم‌هایی هستند که تصاویر ثابت تولید می‌کنند. این شامل ConsiStory از انویدیا و پروژه‌های مختلف دیگری در ادبیات علمی مانند TheaterGen، DreamStory و StoryDiffusion می‌شود.

در تئوری، می‌توان از نسخه‌های بهتری از این سیستم‌ها استفاده کرد (اما هیچ‌کدام از موارد ذکر شده واقعاً سازگار نیستند) تا یک سری عکس‌های تبدیل شده به ویدیو ایجاد کرد که بتوان آن‌ها را در کنار هم در یک سکانس قرار داد.

اما در وضعیت فعلی هنر، این روش نمی‌تواند تصاویر دنباله‌دار و قابل قبولی تولید کند. به‌علاوه، ما با افزودن پیچیدگی‌ها، از رویای تولید مستقل دور شده‌ایم.

همچنین می‌توانیم از مدل‌های انطباق با رتبه پایین (LoRA) استفاده کنیم که به‌طور خاص بر روی شخصیت‌ها، اشیا یا محیط‌ها آموزش داده شده‌اند تا هماهنگی بهتری بین عکس‌ها حفظ شود.

اما اگر شخصیتی بخواهد در یک لباس جدید ظاهر شود، معمولاً باید یک LoRA کاملاً جدید آموزش داده شود که شخصیت را با آن لباس تجسم کند. (اگرچه می‌توان مفاهیم فرعی مانند "لباس قرمز" را به‌صورت جداگانه با تصاویر مشابه آموزش داد، اما کار با آن‌ها همیشه آسان نیست).

این موضوع پیچیدگی قابل توجهی به صحنه‌های ساده در یک فیلم اضافه می‌کند. به عنوان مثال، یک صحنه که در آن شخصی از رختخواب بلند می‌شود، لباس مجلسی می‌پوشد، خمیازه می‌کشد، از پنجره به بیرون نگاه می‌کند و به حمام می‌رود، تقریباً شامل 4 تا 8 پلان است.

این صحنه‌ها می‌توانند به راحتی در یک صبح با روش‌های معمول فیلم‌سازی ضبط شوند. اما در وضعیت فعلی هوش مصنوعی مولد، تولید چنین صحنه‌هایی ممکن است هفته‌ها زمان، چندین LoRA آموزش‌دیده (یا سیستم‌های کمکی دیگر) و مقدار قابل توجهی پس‌پردازش نیاز داشته باشد.

به عنوان یک گزینه دیگر، می‌توان از ویدیو به ویدیو استفاده کرد، جایی که فیلم‌های معمولی یا CGI از طریق پیام‌های متنی به تفسیرهای جایگزین تبدیل می‌شوند. به‌عنوان مثال، Runway چنین سیستمی را ارائه می‌دهد.

در اینجا دو مشکل وجود دارد:

اول اینکه شما باید فیلم اصلی را ابتدا بسازید، بنابراین در واقع دو بار فیلم را تولید می‌کنید، حتی اگر از سیستم‌های مصنوعی مانند MetaHuman شرکت UnReal استفاده کنید.

دوم اینکه اگر مدل‌های CGI را بسازید (مانند کلیپ بالا) و از آن‌ها برای تبدیل ویدیو به تصویر استفاده کنید، نمی‌توانید به ثبات آن‌ها در بین عکس‌ها اعتماد کنید.

این مشکل به این خاطر است که مدل‌های پخش ویدیو «تصویر کلی» را نمی‌بینند؛ بلکه تنها یک فریم جدید را بر اساس فریم‌های قبلی ایجاد می‌کنند و در برخی موارد، یک فریم نزدیک به آینده را هم در نظر می‌گیرند. اما اگر این روند را با بازی شطرنج مقایسه کنیم، این مدل‌ها نمی‌توانند «ده حرکت جلوتر» فکر کنند و نمی‌توانند ده حرکت را به عقب برگردانند.

علاوه بر این، یک مدل انتشار همچنان برای حفظ ظاهری ثابت در سراسر عکس‌ها تلاش می‌کند، حتی اگر چندین LoRA برای شخصیت، محیط و سبک نور اضافه کنید. این مشکلات به دلایلی که در ابتدای این بخش گفته شد، همچنان وجود دارند.

2: شما نمی‌توانید یک عکس را به راحتی ویرایش کنید

اگر شخصیتی را در حال قدم زدن در خیابان با استفاده از روش‌های قدیمی CGI به تصویر می‌کشید و تصمیم بگیرید که بخواهید برخی از جنبه‌های عکس را تغییر دهید، می‌توانید مدل را تنظیم کنید و دوباره آن را رندر کنید.

اگر فیلمبرداری واقعی باشد، کافی است آن را ریست کرده و دوباره با تغییرات مناسب، عکس بگیرید.

اما اگر یک شات ویدیویی با هوش مصنوعی تولید می‌کنید که خوشتان آمده، اما می‌خواهید یک جنبه از آن را تغییر دهید، تنها راه این است که از روش‌های سخت و وقت‌گیر پس از تولید استفاده کنید. این روش‌ها شامل CGI، روتوسکوپی، مدل‌سازی و حصیر کردن می‌شوند که همگی مراحل کار فشرده و پرهزینه‌ای هستند و در طی 30 تا 40 سال گذشته توسعه یافته‌اند.

روش کار مدل‌های انتشار به این صورت است که تغییر یک جنبه از یک اعلان متنی (حتی اگر از یک تصویر اولیه هم استفاده کنید) می‌تواند جنبه‌های مختلف خروجی تولید شده را تغییر دهد. این باعث می‌شود که شما به نوعی در یک بازی «بزن و در برو» گرفتار شوید، جایی که هر تغییر می‌تواند نتایج غیرمنتظره‌ای داشته باشد.

3: شما نمی‌توانید به قوانین فیزیک تکیه کنید

روش‌های سنتی CGI مدل‌های مبتنی بر فیزیک الگوریتمی را ارائه می‌دهند که می‌توانند پدیده‌هایی مانند دینامیک سیالات، حرکت گازی، حرکت انسان، دینامیک پارچه، انفجارها و دیگر پدیده‌های دنیای واقعی را شبیه‌سازی کنند.

با این حال، روش‌های مبتنی بر انتشار، همان‌طور که دیدیم، حافظه‌های کوتاهی دارند و همچنین تنها می‌توانند از محدوده محدودی از حرکات پیش‌رو استفاده کنند. این حرکات، نمونه‌هایی از داده‌های آموزشی موجود هستند.

در نسخه قبلی صفحه فرود OpenAI برای سیستم تحسین‌شده Sora، این شرکت به محدودیت‌های Sora در این زمینه اشاره کرد (اگرچه این متن از آن زمان حذف شده است):

Sora ممکن است در شبیه‌سازی فیزیک یک صحنه پیچیده دچار مشکل شود و نتواند برخی از روابط علت و معلولی را درک کند. به عنوان مثال، ممکن است یک کوکی بعد از گاز زدن شخصیت، هیچ علامتی نشان ندهد.

این مدل همچنین ممکن است در تشخیص جزئیات فضایی موجود دچار اشتباه شود، مانند تشخیص چپ و راست، یا در توصیف دقیق رویدادهایی که به تدریج ظاهر می‌شوند، مانند مسیرهای خاص دوربین، با مشکل مواجه شود.

استفاده عملی از سیستم‌های ویدئویی مولد مبتنی بر API نیز محدودیت‌های مشابهی در شبیه‌سازی دقیق فیزیک نشان می‌دهد. با این حال، برخی پدیده‌های رایج مانند انفجارها به نظر می‌رسد که بهتر در داده‌های آموزشی آن‌ها نشان داده شده‌اند.

برخی حرکات قبلی، یا در مدل مولد آموزش داده شده یا از یک ویدیو منبع تغذیه می‌شوند، ممکن است زمان‌بر باشند تا به طور کامل اجرا شوند. به عنوان مثال، شخصی که یک سکانس رقص پیچیده و غیرتکراری را با لباسی زیبا اجرا می‌کند. در اینجا، انتشار توجه نزدیک مدل ممکن است جزئیات مانند شناسایی چهره و جزئیات لباس را تغییر دهد تا زمانی که حرکت اجرا شود. با این حال، استفاده از LoRA می‌تواند تا حدی این مشکلات را کاهش دهد.

نتیجه‌گیری

هیچ‌یک از این موارد برای کاربری که به دنبال ساخت فیلم‌های تمام‌قد به سبک بلاک‌باستر، با دیالوگ‌های طبیعی، هماهنگی لب، اجراهای واقعی، محیط‌های مناسب و تداوم در تولید است، امیدوارکننده نیست.

علاوه بر این، موانعی که در اینجا توضیح داده شدند، به‌ویژه در مورد مدل‌های ویدیویی مولد مبتنی بر انتشار، به راحتی قابل حل نیستند. این در حالی است که نظرات جامعه و توجه رسانه‌ها ممکن است اینطور به نظر برسد. به نظر می‌رسد محدودیت‌های ذکر شده، ویژگی‌های ذاتی این معماری‌ها هستند.

در تحقیقات مربوط به هوش مصنوعی، مانند سایر تحقیقات علمی، ایده‌های درخشان گاهی ما را با پتانسیل‌های خود شگفت‌زده می‌کنند، اما در ادامه تحقیقاتی انجام می‌شود که محدودیت‌های بنیادی آن‌ها را کشف می‌کند.

در دنیای مولد و سنتز، این موضوع قبلاً با شبکه‌های متخاصم مولد (GANs) و میدان‌های تابشی عصبی (NeRF) رخ داده است. با وجود سال‌ها تحقیق دانشگاهی، دستیابی به ابزارهای کارآمد در سیستم‌های تجاری برای این فناوری‌ها بسیار دشوار بود و اکنون اغلب به عنوان اجزای کمکی در معماری‌های دیگر به کار می‌روند.

در حالی که استودیوهای فیلم ممکن است امیدوار باشند که آموزش کاتالوگ‌های فیلم دارای مجوز قانونی بتواند هنرمندان VFX را جایگزین کند، هوش مصنوعی در حال حاضر به نیروی کار نقش‌های جدیدی اضافه می‌کند.

اینکه آیا سیستم‌های ویدیویی مبتنی بر انتشار واقعاً می‌توانند به تولیدکنندگان فیلم کمک کنند تا روایتی سازگار و واقع‌گرایانه ایجاد کنند یا اینکه این صنعت تنها یک جست‌وجوی دیگر در دنیای کیمیاگری است، باید در 12 ماه آینده مشخص شود.

ممکن است ما به یک رویکرد کاملاً جدید نیاز داشته باشیم. یا ممکن است تکنیک پاشیدن گاوسی (GSplat)، که در اوایل دهه 1990 توسعه یافت و اخیراً در زمینه سنتز تصویر مطرح شده است، یک جایگزین بالقوه برای تولید ویدیوهای مبتنی بر انتشار باشد.

از آنجایی که GSplat 34 سال طول کشید تا به میدان بیاید، شاید رقبای قدیمی‌تری مانند NeRF و GAN و حتی مدل‌های انتشار پنهان هنوز فرصت‌های زیادی برای ظهور داشته باشند.