تبدیل عکس به فردی متحرک و سخنگو با هوش مصنوعی

1403/11/23
ويدئو
2419
0
0

تصور کنید یک عکس از یک شخص بگیرید و در عرض چند ثانیه او را ببینید که صحبت می‌کند، حرکات مختلف انجام می‌دهد و حتی اجرا می‌کند، بدون اینکه فیلم واقعی ضبط کنید. این همان قدرت OmniHuman-1 است که توسط شرکت ByteDance ساخته شده است. این مدل هوش مصنوعی می‌تواند ویدیوهایی بسیار واقعی تولید کند که شامل حرکات همزمان لب، حرکات کل بدن و انیمیشن‌های زنده چهره است؛ همه این‌ها با استفاده از یک کلیپ صوتی هدایت می‌شود.

برخلاف تکنولوژی‌های سنتی دیپ‌فیک که بیشتر بر روی تعویض چهره در ویدیوها تمرکز دارند، OmniHuman-1 کل بدن یک انسان را متحرک می‌کند. حالا می‌توانید سیاستمداری را در حال سخنرانی ببینید، یک شخصیت تاریخی را زنده کنید یا یک آواتار هوش مصنوعی را در حال اجرای آهنگ ببینید. این مدل باعث می‌شود ما به طور عمیق‌تری درباره تولید ویدیو فکر کنیم و با این نوآوری پیامدهای هیجان‌انگیز و نگران‌کننده‌ای به وجود می‌آید.

چه چیزی OmniHuman-1 را متمایز می‌کند؟

OmniHuman-1 واقعاً یک پیشرفت بزرگ در واقع‌گرایی و عملکرد است و به همین دلیل است که این فناوری بسیار محبوب شده است. در اینجا چند دلیل برای این تمایز آورده شده است:

حرکت فراتر از صحبت کردن: بیشتر ویدیوهای دیپ‌فیک و تولید شده توسط هوش مصنوعی فقط به انیمیشن‌های صورت محدود می‌شوند و حرکات آنها اغلب سفت و غیرطبیعی است. اما OmniHuman-1 کل بدن را متحرک می‌کند و ژست‌ها، حالات و حتی تعامل با اشیاء را به تصویر می‌کشد.
همگام‌سازی بی‌نظیر لب و احساسات: این فناوری فقط باعث نمی‌شود که دهان به‌طور تصادفی حرکت کند. هوش مصنوعی تضمین می‌کند که حرکات لب، حالات صورت و زبان بدن با صدای ورودی مطابقت داشته باشد و نتیجه نهایی فوق‌العاده واقعی است.
سازگاری با سبک‌های مختلف تصویر: چه یک پرتره با وضوح بالا، چه یک عکس فوری با کیفیت پایین یا حتی یک تصویر با سبک خاص، OmniHuman-1 به‌طور هوشمندانه‌ای سازگار می‌شود و حرکتی روان و قابل باور را ایجاد می‌کند.

این سطح از دقت به لطف مجموعه داده عظیم ۱۸۷۰۰ ساعته ByteDance از ویدیوهای انسانی و مدل پیشرفته‌ای که حرکات پیچیده انسان را یاد می‌گیرد، ممکن شده است. نتیجه، ویدیوهای تولید شده توسط هوش مصنوعی است که تقریباً از فیلم واقعی قابل تشخیص نیستند و این بهترین چیزی است که تا به حال دیده‌ام.

فناوری پشت OmniHuman-1

OmniHuman-1 یک مدل پیشرفته هوش مصنوعی است که بر اساس یک چارچوب به نام ترانسفورماتور انتشار طراحی شده است. این مدل با پیش‌بینی و اصلاح الگوهای حرکتی از فریم به فریم، حرکت را ایجاد می‌کند. این روش به آن کمک می‌کند تا حرکات طبیعی و پویایی واقعی بدن را به تصویر بکشد و این یک قدم بزرگ نسبت به مدل‌های دیپ‌فیک سنتی است.

ByteDance این مدل را با استفاده از یک مجموعه داده بزرگ به طول ۱۸۷۰۰ ساعت از ویدیوهای انسانی آموزش داده است. این آموزش به OmniHuman-1 اجازه می‌دهد تا حرکات، حالات چهره و ژست‌های مختلف را درک کند. با قرار دادن این هوش مصنوعی در معرض تنوع بالایی از حرکات واقعی، حس طبیعی و واقع‌گرایی محتوای تولید شده افزایش می‌یابد.

یک نوآوری کلیدی در این مدل، استراتژی آموزشی «شرایط همه‌جانبه» است. در این روش، سیگنال‌های ورودی مختلف مانند کلیپ‌های صوتی، پیام‌های متنی و ارجاعات به حالت‌ها به‌طور همزمان در طول آموزش استفاده می‌شوند. این باعث می‌شود که هوش مصنوعی بتواند حرکات را با دقت بیشتری پیش‌بینی کند، حتی در سناریوهای پیچیده که شامل حرکات دست، عبارات احساسی و زوایای مختلف دوربین است.

دغدغه‌های اخلاقی و عملی

با پیشرفت OmniHuman-1 و ایجاد ویدیوهای بسیار واقعی، نگرانی‌های اخلاقی و امنیتی قابل توجهی نیز به وجود آمده است:

خطرات دیپ‌فیک: توانایی ایجاد ویدیوهای واقعی از یک تصویر واحد می‌تواند به انتشار اطلاعات نادرست، سرقت هویت و جعل هویت دیجیتال منجر شود. این موضوع می‌تواند بر روزنامه‌نگاری، سیاست و اعتماد عمومی به رسانه‌ها تأثیر منفی بگذارد.
سوء استفاده‌های احتمالی: فریب‌های مبتنی بر هوش مصنوعی می‌توانند در روش‌های مخرب مانند جعل‌های عمیق سیاسی، کلاهبرداری‌های مالی و تولید محتوای بدون توافق استفاده شوند. این مسائل نیاز به مقررات و واترمارکینگ را به عنوان موضوعات مهم مطرح می‌کند.
مسئولیت ByteDance: در حال حاضر، OmniHuman-1 به‌طور عمومی در دسترس نیست، احتمالاً به دلیل همین نگرانی‌های اخلاقی. اگر این مدل به‌زودی منتشر شود، ByteDance باید تدابیر قوی مانند واترمارک دیجیتال، ردیابی اصالت محتوا و محدودیت‌هایی برای جلوگیری از سوء استفاده را اجرا کند.
چالش‌های نظارتی: دولت‌ها و سازمان‌های فناوری در حال تلاش برای تنظیم رسانه‌های تولید شده توسط هوش مصنوعی هستند. تلاش‌هایی مانند قانون هوش مصنوعی در اتحادیه اروپا و پیشنهادات قانونی در ایالات متحده برای دیپ‌فیک نیاز فوری به نظارت را نشان می‌دهد.
تشخیص در برابر مسابقه تسلیحاتی نسل: با بهبود مدل‌های هوش مصنوعی مانند OmniHuman-1، سیستم‌های تشخیص نیز باید پیشرفت کنند. شرکت‌هایی مانند گوگل و OpenAI در حال توسعه ابزارهای تشخیص هوش مصنوعی هستند، اما همگام شدن با این قابلیت‌های هوش مصنوعی که به سرعت در حال پیشرفت هستند، همچنان چالش‌برانگیز است.

آینده انسان‌های تولید شده با هوش مصنوعی

خلق انسان‌های تولید شده با هوش مصنوعی به سرعت در حال پیشرفت است و مدل OmniHuman-1 این روند را تسریع می‌کند. یکی از برنامه‌های فوری برای این مدل، امکان ادغام آن در پلتفرم‌هایی مانند TikTok و CapCut است، زیرا ByteDance مالک این پلتفرم‌ها می‌باشد. این کار می‌تواند به کاربران اجازه دهد آواتارهای بسیار واقعی بسازند که می‌توانند صحبت کنند، آواز بخوانند یا کارهایی را با حداقل ورودی انجام دهند. اگر این ایده اجرا شود، می‌تواند به طور کلی نحوه تولید محتوای کاربر را تغییر دهد و اینفلوئنسرها، کسب‌وکارها و کاربران عادی را قادر سازد تا ویدیوهای جذاب مبتنی بر هوش مصنوعی را به راحتی ایجاد کنند.

فراتر از رسانه‌های اجتماعی، OmniHuman-1 تأثیرات مهمی برای صنعت سرگرمی، از جمله هالیوود، بازی‌ها و اینفلوئنسرهای مجازی دارد. صنعت سرگرمی در حال حاضر در حال بررسی شخصیت‌های تولید شده توسط هوش مصنوعی است و توانایی این مدل برای ارائه عملکردهای واقعی می‌تواند به پیشرفت در این زمینه کمک کند.

از نظر ژئوپلیتیک، پیشرفت‌های ByteDance بار دیگر رقابت فزاینده بین هوش مصنوعی چین و غول‌های فناوری ایالات متحده مانند OpenAI و Google را نشان می‌دهد. با سرمایه‌گذاری گسترده چین در تحقیقات هوش مصنوعی، OmniHuman-1 یک چالش جدی برای فناوری رسانه‌های مولد به حساب می‌آید. همانطور که ByteDance به بهبود این مدل ادامه می‌دهد، این می‌تواند زمینه را برای رقابت گسترده‌تری در زمینه رهبری هوش مصنوعی فراهم کند و بر نحوه توسعه، تنظیم و پذیرش ابزارهای ویدئویی هوش مصنوعی در سراسر جهان تأثیر بگذارد.

سوالات متداول (FAQ)

OmniHuman-1 چیست؟
OmniHuman-1 یک مدل هوش مصنوعی است که توسط ByteDance توسعه یافته و می‌تواند ویدیوهای واقعی را از یک تصویر و یک کلیپ صوتی تولید کند و انیمیشن‌های واقعی از افراد ایجاد کند.
OmniHuman-1 چه تفاوتی با فناوری سنتی دیپ فیک دارد؟
بر خلاف دیپ‌فیک‌های سنتی که عمدتاً بر روی تعویض چهره‌ها تمرکز دارند، OmniHuman-1 قادر است یک فرد را به طور کامل متحرک کند، شامل ژست‌های کل بدن، حرکات همزمان لب‌ها و عبارات احساسی.
آیا OmniHuman-1 به صورت عمومی در دسترس است؟
در حال حاضر، ByteDance این مدل را برای استفاده عمومی منتشر نکرده است.
خطرات اخلاقی مرتبط با OmniHuman-1 چیست؟
این مدل می‌تواند برای تولید اطلاعات نادرست، کلاهبرداری‌های جعلی و محتوای تولید شده بدون توافق استفاده شود و امنیت دیجیتال را به یک نگرانی جدی تبدیل کند.
چگونه می‌توان ویدیوهای تولید شده توسط هوش مصنوعی را شناسایی کرد؟
شرکت‌های فناوری و محققان در حال توسعه ابزارهای واترمارکینگ و روش‌های تحلیل قانونی هستند تا به شناسایی ویدیوهای تولید شده توسط هوش مصنوعی از فیلم‌های واقعی کمک کنند.