MusicLM Google , هوش مصنوعی تبدیل متن به موسیقی

1402/8/28
موزيک
5596
0
0

موسیقی، نوعی هنری است که از دوران‌های قدیمی به همراه انسان بوده و با تجسم روح و احساسات انسان طنین انداخته است. ساخت موسیقی با استفاده از هوش مصنوعی از چندین دهه پیش آغاز شده است. در ابتدا، تلاش‌ها ساده و شهودی بودند و از الگوریتم‌های ابتدایی برای ایجاد آهنگ‌های یکنواخت استفاده می‌شد. با پیشرفت تکنولوژی، پیچیدگی و قابلیت‌های مولد موسیقی هوش مصنوعی نیز افزایش یافته و راه را برای یادگیری عمیق و پردازش زبان طبیعی (NLP) به منظور پخش هموار کرد. این تکنولوژی نقش‌های محوری در این حوزه ایفا می‌کند.

در زمان حاضر، پلتفرم‌هایی مانند اسپاتیفای از هوش مصنوعی برای تنظیم دقیق تجربیات شنیداری کاربران خود استفاده می‌کنند. این الگوریتم‌های یادگیری عمیق ترجیحات فردی را بر اساس عناصر مختلف موسیقی مانند تمپو و حالت مورد توجه قرار داده و پیشنهادهای آهنگ شخصی‌سازی شده ایجاد می‌کنند. آنها حتی الگوهای شنیداری گسترده‌تری را تجزیه و تحلیل کرده و از اینترنت برای جستجوی بحث‌های مرتبط با آهنگ استفاده می‌کنند تا پروفایل‌های دقیق‌تری از سلیقه موسیقی هر کاربر ایجاد کنند.

خاستگاه هوش مصنوعی در موسیقی: سفری از ترکیب الگوریتمی تا مدل سازی مولد

در مراحل اولیه ادغام هوش مصنوعی در دنیای موسیقی، از دهه‌های ۱۹۵۰ تا ۱۹۷۰، تمرکز اصلی بر ترکیب الگوریتمی بود. در این روش، کامپیوترها از مجموعه‌ای از قوانین تعریف شده برای ایجاد موسیقی استفاده می‌کردند. یکی از نخستین آثار قابل توجه در این دوره، "Illiac Suite for String Quartet" در سال ۱۹۵۷ بود. این ساخته از الگوریتم مونت کارلو بهره برد و یک فرآیند شامل اعداد تصادفی برای دیکته کردن زیر و بمی و ریتم در حدود تئوری موسیقی سنتی و احتمالات آماری بود.

در این دوره، یکی از پیشگامان دیگر، یانیس زناکیس، از فرآیندهای تصادفی و مفهوم توزیع‌های احتمال تصادفی برای ساخت موسیقی استفاده کرد. او از رایانه‌ها و زبان برنامه نویسی FORTRAN برای ارتباط با توابع احتمالی مختلف استفاده کرد و الگوهایی ایجاد کرد که در آن بازنمایی‌های گرافیکی مختلف با فضاهای صوتی متنوع همخوانی داشتند.

پیچیدگی ترجمه متن به موسیقی

موسیقی به عنوان یک هنر چند بعدی از عناصری چون ملودی، هارمونی، ریتم و تمپو تشکیل شده است و نگهداری این اطلاعات در قالب داده‌ها بسیار پیچیده است. یک آهنگ استاندارد تقریباً یک میلیون عدد را در یک کامپیوتر نمایش می‌دهد که این رقم قابلیت ذخیره‌سازی بالاتری نسبت به سایر فرمت‌های داده مانند تصویر و متن دارد.

در حوزه تولید صدا، رویکردهای نوآورانه‌ای برای غلبه بر چالش‌های ایجاد صدای واقعی مورد استفاده قرار گرفته‌اند. یکی از روش‌ها، تولید یک طیف نگار و سپس تبدیل آن به صدا است.

رویکرد دیگر از نمایش نمادین موسیقی استفاده می‌کند، مثل نت موسیقی که می‌تواند توسط نوازندگان تفسیر و اجرا شود. این روش با موفقیت در دیجیتال سازی این فرآیند با استفاده از ابزارهایی مانند "Magenta Chamber Ensemble Generator" انجام شده و موسیقی در فرمت MIDI ایجاد می‌شود، که یک پروتکل برای ارتباط بین رایانه‌ها و آلات موسیقی است.

هرچند که این رویکردها توسعه فناورانه را پیشرفت داده‌اند، با چالش‌ها و محدودیت‌های خاص خود همراه هستند که به ماهیت پیچیده تولید صدا اشاره دارند.

مدل‌های مبتنی بر ترانسفورماتورها و مدل‌های انتشار مبتنی بر U-Net در جلوگیری از این چالش‌ها نقش ایفا می‌کنند. این فناوری به تولید و بهبود صدا، متن، موسیقی و سایر موارد مورد استفاده در حوزه هوش مصنوعی منجر شده است. از جمله سری مدل‌های GPT OpenAI و تقریباً همهٔ LLM‌های دیگر توسط ترانسفورماتورها بهره می‌برند. از طرف دیگر، در زمینهٔ هنر و تصویر، MidJourney، Stability AI و DALL-E 2 از چارچوب‌های انتشار اهرمی استفاده می‌کنند. این دو فناوری اساسی در دستیابی به نتایج برتر در بخش صوتی نیز نقش بسزایی ایفا کرده‌اند. در این متن، به بررسی MusicLM و Stable Audio از گوگل می‌پردازیم که شاهکارهای این فناوری‌ها را نمایان می‌کنند.

Google MusicLM

MusicLM گوگل که در ماه می امسال منتشر شد، قادر به تولید قطعات موسیقی با کیفیت بالا است که به دقت با احساسات مشخصی که در متن توضیح داده شده است، هماهنگ می‌شوند. با بهره‌مندی از مدل‌سازی سلسله مراتبی ترتیب به دنباله، MusicLM می‌تواند توضیحات متنی را به موسیقی تبدیل کند که در 24 کیلوهرتز طنین انداز می‌شود.

این مدل به صورت چند بعدی در یک سطح عمل می‌کند و نه تنها به ورودی‌های متنی پایبند است بلکه توانایی شرطی کردن ملودی‌ها را نیز نشان می‌دهد. این به این معناست که می‌تواند ملودی‌هایی که زمزمه شده یا سوت زده شده‌اند را بگیرد و آن‌ها را مطابق با سبک مشخص شده در شرح متن تغییر دهد.

توضیحات فنی

MusicLM از اصول AudioLM بهره می‌برد که در سال 2022 معرفی شد، چارچوبی که صدا را به عنوان یک مدل‌سازی زبان در یک فضای نمایش گسسته مدل می‌کند. این چارچوب از سلسله مراتبی از واحدهای گسسته صوتی درشت به ریز، که به عنوان نشانه‌ها نیز شناخته می‌شوند، برای ترکیب صدا استفاده می‌کند. این رویکرد وفاداری بالا و انسجام طولانی مدت را در مدت زمان قابل توجهی تضمین می‌کند.

برای تسهیل فرآیند تولید، MusicLM قابلیت‌های AudioLM را برای ترکیب شرطی‌سازی متن ارتقاء داده است، یک تکنیک که صدای تولید شده را با تفاوت‌های ظریف متن ورودی هماهنگ می‌کند. این امر از طریق ایجاد یک فضای جاسازی مشترک با استفاده از MuLan، یک مدل موسیقی-متن مشترک آموزش داده شده برای پخش موسیقی و توضیحات متن متناظر آن، به دست می‌آید. این استراتژی به طور موثری نیاز به زیرنویس را در طول آموزش از بین می‌برد و به مدل اجازه می‌دهد تا بر روی بدنه‌های عظیم فقط صوتی آموزش داده شود.

مدل MusicLM همچنین از SoundStream به‌عنوان توکنایزر صوتی خود استفاده می‌کند که می‌تواند موسیقی 24 کیلوهرتز را با سرعت 6 کیلوبیت در ثانیه و با وفاداری چشمگیر بازسازی کند. برای فشرده‌سازی صوتی کارآمد و با کیفیت از Quantization Vector (RVQ) استفاده می‌کند.

علاوه بر این، MusicLM قابلیت‌های خود را با اجازه دادن به تحویل ملودی گسترش می‌دهد. این رویکرد تضمین می‌کند که حتی یک آهنگ زمزمه‌شده ساده نیز می‌تواند پایه و اساس یک تجربه شنیداری باشکوه را ایجاد کند، که مطابق با توضیحات دقیق سبک متنی تنظیم شده است.

توسعه‌دهندگان MusicLM همچنین MusicCaps منبع باز دارند، یک مجموعه داده شامل 5.5 هزار جفت موسیقی-متن، که هر کدام با توضیحات متنی غنی ساخته شده توسط متخصصان انسانی همراه است. می‌توانید آن را در [اینجا](https://huggingface.co/datasets/musiccaps) بررسی کنید.

برای ایجاد موسیقی متن با هوش مصنوعی با MusicLM از Google آماده هستید؟ در اینجا نحوه شروع به کار آمده است:

1. از [وب‌سایت رسمی MusicLM](https://musiclab.chromeexperiments.com/MusicLM) دیدن کنید و روی "شروع به کار" کلیک کنید.
2. با انتخاب "ثبت علاقه خود" به لیست انتظار بپیوندید.
3. با استفاده از حساب Google خود وارد شوید.
4. پس از اعطای دسترسی، برای شروع روی "اکنون امتحان کنید" کلیک کنید.

صدای پایدار

Stability AI هفته گذشته "Stable Audio" یک معماری مدل انتشار پنهان را معرفی کرد که مشروط به فراداده متنی همراه با مدت زمان فایل صوتی و زمان شروع است. این رویکرد مانند MusicLM Google بر محتوا و طول صدای تولید شده کنترل دارد و امکان ایجاد کلیپ‌های صوتی با طول‌های مشخص تا اندازه پنجره آموزشی را فراهم می‌کند.

توضیحات فنی

صدای پایدار شامل چندین مؤلفه از جمله رمزگذار خودکار متغیر (VAE) و مدل انتشار شرطی مبتنی بر U-Net است که با یک رمزگذار متن کار می کنند.
VAE تولید و آموزش سریع‌تر را با فشرده‌سازی صدای استریو به یک کدگذاری نهفته فشرده‌شده، مقاوم در برابر نویز و معکوس با تلفات، تسهیل می‌کند. دور زدن نیاز به کار با نمونه های صوتی خام.

رمزگذار متن، برگرفته از مدل CLAP، نقشی اساسی در درک روابط پیچیده بین کلمات و صداها ایفا می‌کند و اطلاعاتی آموزنده ارائه می‌کند. نمایش متن ورودی نشانه گذاری شده این امر از طریق استفاده از ویژگی‌های متنی از لایه ماقبل آخر رمزگذار متن CLAP به دست می‌آید که سپس از طریق لایه‌های توجه متقابل در U-Net انتشار یکپارچه می‌شوند.

یکی از جنبه‌های مهم، ادغام تعبیه‌های زمان‌بندی است که بر اساس دو ویژگی محاسبه می‌شوند: ثانیه شروع قطعه صوتی و کل مدت زمان فایل صوتی اصلی. این مقادیر که به تعبیه‌های یادگیری گسسته در هر ثانیه ترجمه می‌شوند، با توکن‌های سریع ترکیب می‌شوند و به لایه‌های توجه متقابل U-Net وارد می‌شوند و به کاربران این امکان را می‌دهند که طول کلی صدای خروجی را دیکته کنند.

مدل Stable Audio با استفاده از مجموعه داده گسترده ای از بیش از 800000 فایل صوتی، از طریق همکاری با ارائه دهنده موسیقی سهام AudioSparx آموزش داده شد.

Stable Audio یک نسخه رایگان ارائه می‌دهد که اجازه می‌دهد 20 نسل آهنگ حداکثر 20 ثانیه در ماه، و یک طرح حرفه‌ای 12 دلاری در ماه، اجازه 500 نسل آهنگ تا 90 ثانیه را ارائه دهد.

«سینما، موسیقی متن بارندگی ملایم، محیطی، آرامش‌بخش، پارس سگ‌های دوردست، خش‌خش برگ‌ها، باد ملایم، 40 ضربه در دقیقه»
کاربرد چنین قطعات صوتی ریز ساخته شده بی پایان است. فیلمسازان می توانند از این فناوری برای ایجاد مناظر صوتی غنی و فراگیر استفاده کنند. در بخش تجاری، تبلیغ‌کنندگان می‌توانند از این آهنگ‌های صوتی مناسب استفاده کنند. علاوه بر این، این ابزار راه‌هایی را برای خلاقان و هنرمندان مجزا برای آزمایش و نوآوری باز می‌کند و بوم بالقوه‌ای نامحدود برای ساخت قطعات صوتی ارائه می‌دهد که داستان‌ها را روایت می‌کنند، احساسات را برمی‌انگیزند و فضاهایی با عمقی ایجاد می‌کنند که پیش از این دستیابی به آن بدون بودجه قابل‌توجه دشوار بود. یا تخصص فنی

نکات پیشنهادی

با استفاده از پیام‌های متنی، صدای عالی را بسازید. در اینجا یک راهنمای سریع برای شروع شما آمده است:

1. **جزئیات باشید:** ژانرها، حالات و سازها را مشخص کنید. برای مثال: سینمایی، غرب وحشی، پرکاشن، تنش، جوی
2. **تنظیم حالت:** اصطلاحات موسیقی و احساسی را ترکیب کنید تا حال و هوای مورد نظر را منتقل کنید.
3. **انتخاب ساز:** نام سازها را با صفت هایی مانند "گیتار طنین دار" یا "کر قدرتمند" تقویت کنید.
4. **BPM:** برای خروجی هماهنگ، سرعت را با ژانر هماهنگ کنید، مانند "170 BPM" برای آهنگ درام و باس.

آماده‌اید؟ با استفاده از مدل‌هایی مانند MusicLM یا Stable Audio، می‌توانید به راحتی ایده‌هایتان را به موسیقی تبدیل کنید. اکنون می‌توانید از این تکنولوژی برای ایجاد صداها و آهنگ‌های خودتان بهره‌مند شوید.

در این مقاله، به موسیقی/صدای تولید شده توسط هوش مصنوعی، از ترکیب‌بندی‌های الگوریتمی گرفته تا چارچوب‌های پیشرفته هوش مصنوعی امروزی مانند MusicLM و Stability Audio گوگل پرداخته‌ایم. این فناوری‌ها، با استفاده از یادگیری عمیق و مدل‌های فشرده‌سازی SOTA، نه تنها تولید موسیقی را افزایش می‌دهند، بلکه شنوندگان را نیز تنظیم می‌کنند. تجربیات.