موسیقی، نوعی هنری است که از دورانهای قدیمی به همراه انسان بوده و با تجسم روح و احساسات انسان طنین انداخته است. ساخت موسیقی با استفاده از هوش مصنوعی از چندین دهه پیش آغاز شده است. در ابتدا، تلاشها ساده و شهودی بودند و از الگوریتمهای ابتدایی برای ایجاد آهنگهای یکنواخت استفاده میشد. با پیشرفت تکنولوژی، پیچیدگی و قابلیتهای مولد موسیقی هوش مصنوعی نیز افزایش یافته و راه را برای یادگیری عمیق و پردازش زبان طبیعی (NLP) به منظور پخش هموار کرد. این تکنولوژی نقشهای محوری در این حوزه ایفا میکند.
در زمان حاضر، پلتفرمهایی مانند اسپاتیفای از هوش مصنوعی برای تنظیم دقیق تجربیات شنیداری کاربران خود استفاده میکنند. این الگوریتمهای یادگیری عمیق ترجیحات فردی را بر اساس عناصر مختلف موسیقی مانند تمپو و حالت مورد توجه قرار داده و پیشنهادهای آهنگ شخصیسازی شده ایجاد میکنند. آنها حتی الگوهای شنیداری گستردهتری را تجزیه و تحلیل کرده و از اینترنت برای جستجوی بحثهای مرتبط با آهنگ استفاده میکنند تا پروفایلهای دقیقتری از سلیقه موسیقی هر کاربر ایجاد کنند.
خاستگاه هوش مصنوعی در موسیقی: سفری از ترکیب الگوریتمی تا مدل سازی مولد
در مراحل اولیه ادغام هوش مصنوعی در دنیای موسیقی، از دهههای ۱۹۵۰ تا ۱۹۷۰، تمرکز اصلی بر ترکیب الگوریتمی بود. در این روش، کامپیوترها از مجموعهای از قوانین تعریف شده برای ایجاد موسیقی استفاده میکردند. یکی از نخستین آثار قابل توجه در این دوره، "Illiac Suite for String Quartet" در سال ۱۹۵۷ بود. این ساخته از الگوریتم مونت کارلو بهره برد و یک فرآیند شامل اعداد تصادفی برای دیکته کردن زیر و بمی و ریتم در حدود تئوری موسیقی سنتی و احتمالات آماری بود.
در این دوره، یکی از پیشگامان دیگر، یانیس زناکیس، از فرآیندهای تصادفی و مفهوم توزیعهای احتمال تصادفی برای ساخت موسیقی استفاده کرد. او از رایانهها و زبان برنامه نویسی FORTRAN برای ارتباط با توابع احتمالی مختلف استفاده کرد و الگوهایی ایجاد کرد که در آن بازنماییهای گرافیکی مختلف با فضاهای صوتی متنوع همخوانی داشتند.
پیچیدگی ترجمه متن به موسیقی
موسیقی به عنوان یک هنر چند بعدی از عناصری چون ملودی، هارمونی، ریتم و تمپو تشکیل شده است و نگهداری این اطلاعات در قالب دادهها بسیار پیچیده است. یک آهنگ استاندارد تقریباً یک میلیون عدد را در یک کامپیوتر نمایش میدهد که این رقم قابلیت ذخیرهسازی بالاتری نسبت به سایر فرمتهای داده مانند تصویر و متن دارد.
در حوزه تولید صدا، رویکردهای نوآورانهای برای غلبه بر چالشهای ایجاد صدای واقعی مورد استفاده قرار گرفتهاند. یکی از روشها، تولید یک طیف نگار و سپس تبدیل آن به صدا است.
رویکرد دیگر از نمایش نمادین موسیقی استفاده میکند، مثل نت موسیقی که میتواند توسط نوازندگان تفسیر و اجرا شود. این روش با موفقیت در دیجیتال سازی این فرآیند با استفاده از ابزارهایی مانند "Magenta Chamber Ensemble Generator" انجام شده و موسیقی در فرمت MIDI ایجاد میشود، که یک پروتکل برای ارتباط بین رایانهها و آلات موسیقی است.
هرچند که این رویکردها توسعه فناورانه را پیشرفت دادهاند، با چالشها و محدودیتهای خاص خود همراه هستند که به ماهیت پیچیده تولید صدا اشاره دارند.
مدلهای مبتنی بر ترانسفورماتورها و مدلهای انتشار مبتنی بر U-Net در جلوگیری از این چالشها نقش ایفا میکنند. این فناوری به تولید و بهبود صدا، متن، موسیقی و سایر موارد مورد استفاده در حوزه هوش مصنوعی منجر شده است. از جمله سری مدلهای GPT OpenAI و تقریباً همهٔ LLMهای دیگر توسط ترانسفورماتورها بهره میبرند. از طرف دیگر، در زمینهٔ هنر و تصویر، MidJourney، Stability AI و DALL-E 2 از چارچوبهای انتشار اهرمی استفاده میکنند. این دو فناوری اساسی در دستیابی به نتایج برتر در بخش صوتی نیز نقش بسزایی ایفا کردهاند. در این متن، به بررسی MusicLM و Stable Audio از گوگل میپردازیم که شاهکارهای این فناوریها را نمایان میکنند.
Google MusicLM
MusicLM گوگل که در ماه می امسال منتشر شد، قادر به تولید قطعات موسیقی با کیفیت بالا است که به دقت با احساسات مشخصی که در متن توضیح داده شده است، هماهنگ میشوند. با بهرهمندی از مدلسازی سلسله مراتبی ترتیب به دنباله، MusicLM میتواند توضیحات متنی را به موسیقی تبدیل کند که در 24 کیلوهرتز طنین انداز میشود.
این مدل به صورت چند بعدی در یک سطح عمل میکند و نه تنها به ورودیهای متنی پایبند است بلکه توانایی شرطی کردن ملودیها را نیز نشان میدهد. این به این معناست که میتواند ملودیهایی که زمزمه شده یا سوت زده شدهاند را بگیرد و آنها را مطابق با سبک مشخص شده در شرح متن تغییر دهد.
توضیحات فنی
MusicLM از اصول AudioLM بهره میبرد که در سال 2022 معرفی شد، چارچوبی که صدا را به عنوان یک مدلسازی زبان در یک فضای نمایش گسسته مدل میکند. این چارچوب از سلسله مراتبی از واحدهای گسسته صوتی درشت به ریز، که به عنوان نشانهها نیز شناخته میشوند، برای ترکیب صدا استفاده میکند. این رویکرد وفاداری بالا و انسجام طولانی مدت را در مدت زمان قابل توجهی تضمین میکند.
برای تسهیل فرآیند تولید، MusicLM قابلیتهای AudioLM را برای ترکیب شرطیسازی متن ارتقاء داده است، یک تکنیک که صدای تولید شده را با تفاوتهای ظریف متن ورودی هماهنگ میکند. این امر از طریق ایجاد یک فضای جاسازی مشترک با استفاده از MuLan، یک مدل موسیقی-متن مشترک آموزش داده شده برای پخش موسیقی و توضیحات متن متناظر آن، به دست میآید. این استراتژی به طور موثری نیاز به زیرنویس را در طول آموزش از بین میبرد و به مدل اجازه میدهد تا بر روی بدنههای عظیم فقط صوتی آموزش داده شود.
مدل MusicLM همچنین از SoundStream بهعنوان توکنایزر صوتی خود استفاده میکند که میتواند موسیقی 24 کیلوهرتز را با سرعت 6 کیلوبیت در ثانیه و با وفاداری چشمگیر بازسازی کند. برای فشردهسازی صوتی کارآمد و با کیفیت از Quantization Vector (RVQ) استفاده میکند.
علاوه بر این، MusicLM قابلیتهای خود را با اجازه دادن به تحویل ملودی گسترش میدهد. این رویکرد تضمین میکند که حتی یک آهنگ زمزمهشده ساده نیز میتواند پایه و اساس یک تجربه شنیداری باشکوه را ایجاد کند، که مطابق با توضیحات دقیق سبک متنی تنظیم شده است.
توسعهدهندگان MusicLM همچنین MusicCaps منبع باز دارند، یک مجموعه داده شامل 5.5 هزار جفت موسیقی-متن، که هر کدام با توضیحات متنی غنی ساخته شده توسط متخصصان انسانی همراه است. میتوانید آن را در [اینجا](https://huggingface.co/datasets/musiccaps) بررسی کنید.
برای ایجاد موسیقی متن با هوش مصنوعی با MusicLM از Google آماده هستید؟ در اینجا نحوه شروع به کار آمده است:
1. از [وبسایت رسمی MusicLM](https://musiclab.chromeexperiments.com/MusicLM) دیدن کنید و روی "شروع به کار" کلیک کنید.
2. با انتخاب "ثبت علاقه خود" به لیست انتظار بپیوندید.
3. با استفاده از حساب Google خود وارد شوید.
4. پس از اعطای دسترسی، برای شروع روی "اکنون امتحان کنید" کلیک کنید.
صدای پایدار
Stability AI هفته گذشته "Stable Audio" یک معماری مدل انتشار پنهان را معرفی کرد که مشروط به فراداده متنی همراه با مدت زمان فایل صوتی و زمان شروع است. این رویکرد مانند MusicLM Google بر محتوا و طول صدای تولید شده کنترل دارد و امکان ایجاد کلیپهای صوتی با طولهای مشخص تا اندازه پنجره آموزشی را فراهم میکند.
توضیحات فنی
صدای پایدار شامل چندین مؤلفه از جمله رمزگذار خودکار متغیر (VAE) و مدل انتشار شرطی مبتنی بر U-Net است که با یک رمزگذار متن کار می کنند.
VAE تولید و آموزش سریعتر را با فشردهسازی صدای استریو به یک کدگذاری نهفته فشردهشده، مقاوم در برابر نویز و معکوس با تلفات، تسهیل میکند. دور زدن نیاز به کار با نمونه های صوتی خام.
رمزگذار متن، برگرفته از مدل CLAP، نقشی اساسی در درک روابط پیچیده بین کلمات و صداها ایفا میکند و اطلاعاتی آموزنده ارائه میکند. نمایش متن ورودی نشانه گذاری شده این امر از طریق استفاده از ویژگیهای متنی از لایه ماقبل آخر رمزگذار متن CLAP به دست میآید که سپس از طریق لایههای توجه متقابل در U-Net انتشار یکپارچه میشوند.
یکی از جنبههای مهم، ادغام تعبیههای زمانبندی است که بر اساس دو ویژگی محاسبه میشوند: ثانیه شروع قطعه صوتی و کل مدت زمان فایل صوتی اصلی. این مقادیر که به تعبیههای یادگیری گسسته در هر ثانیه ترجمه میشوند، با توکنهای سریع ترکیب میشوند و به لایههای توجه متقابل U-Net وارد میشوند و به کاربران این امکان را میدهند که طول کلی صدای خروجی را دیکته کنند.
مدل Stable Audio با استفاده از مجموعه داده گسترده ای از بیش از 800000 فایل صوتی، از طریق همکاری با ارائه دهنده موسیقی سهام AudioSparx آموزش داده شد.
Stable Audio یک نسخه رایگان ارائه میدهد که اجازه میدهد 20 نسل آهنگ حداکثر 20 ثانیه در ماه، و یک طرح حرفهای 12 دلاری در ماه، اجازه 500 نسل آهنگ تا 90 ثانیه را ارائه دهد.
«سینما، موسیقی متن بارندگی ملایم، محیطی، آرامشبخش، پارس سگهای دوردست، خشخش برگها، باد ملایم، 40 ضربه در دقیقه»
کاربرد چنین قطعات صوتی ریز ساخته شده بی پایان است. فیلمسازان می توانند از این فناوری برای ایجاد مناظر صوتی غنی و فراگیر استفاده کنند. در بخش تجاری، تبلیغکنندگان میتوانند از این آهنگهای صوتی مناسب استفاده کنند. علاوه بر این، این ابزار راههایی را برای خلاقان و هنرمندان مجزا برای آزمایش و نوآوری باز میکند و بوم بالقوهای نامحدود برای ساخت قطعات صوتی ارائه میدهد که داستانها را روایت میکنند، احساسات را برمیانگیزند و فضاهایی با عمقی ایجاد میکنند که پیش از این دستیابی به آن بدون بودجه قابلتوجه دشوار بود. یا تخصص فنی
نکات پیشنهادی
با استفاده از پیامهای متنی، صدای عالی را بسازید. در اینجا یک راهنمای سریع برای شروع شما آمده است:
1. **جزئیات باشید:** ژانرها، حالات و سازها را مشخص کنید. برای مثال: سینمایی، غرب وحشی، پرکاشن، تنش، جوی
2. **تنظیم حالت:** اصطلاحات موسیقی و احساسی را ترکیب کنید تا حال و هوای مورد نظر را منتقل کنید.
3. **انتخاب ساز:** نام سازها را با صفت هایی مانند "گیتار طنین دار" یا "کر قدرتمند" تقویت کنید.
4. **BPM:** برای خروجی هماهنگ، سرعت را با ژانر هماهنگ کنید، مانند "170 BPM" برای آهنگ درام و باس.
آمادهاید؟ با استفاده از مدلهایی مانند MusicLM یا Stable Audio، میتوانید به راحتی ایدههایتان را به موسیقی تبدیل کنید. اکنون میتوانید از این تکنولوژی برای ایجاد صداها و آهنگهای خودتان بهرهمند شوید.
در این مقاله، به موسیقی/صدای تولید شده توسط هوش مصنوعی، از ترکیببندیهای الگوریتمی گرفته تا چارچوبهای پیشرفته هوش مصنوعی امروزی مانند MusicLM و Stability Audio گوگل پرداختهایم. این فناوریها، با استفاده از یادگیری عمیق و مدلهای فشردهسازی SOTA، نه تنها تولید موسیقی را افزایش میدهند، بلکه شنوندگان را نیز تنظیم میکنند. تجربیات.