مدل جدیدی برای تولید موسیقی سمبولیک با استفاده از متادیتا موسیقی 🎶🤖

مدل جدیدی برای تولید موسیقی سمبولیک با استفاده از متادیتا موسیقی

هوش مصنوعی (AI) فرصت‌های جدید و جالبی را برای صنعت موسیقی ایجاد کرده است، مانند توسعه ابزارهایی که می‌توانند به‌طور خودکار آهنگ‌های موسیقی یا قطعات مربوط به سازهای خاص تولید کنند. با این حال، بیشتر این ابزارها برای استفاده توسط موسیقی‌دانان، آهنگسازان و تولیدکنندگان موسیقی طراحی شده‌اند و کمتر به کاربران غیرحرفه‌ای توجه داشته‌اند.

محققان LG AI Research اخیراً یک سیستم تعاملی جدید توسعه داده‌اند که به هر کاربری اجازه می‌دهد به راحتی ایده‌های خود را به موسیقی تبدیل کند. این سیستم که در مقاله‌ای منتشر شده در سرور پیش‌چاپ arXiv معرفی شده، ترکیبی از یک ترانسفورمر فقط دیکودر خودبازگشتی است که بر روی داده‌های موسیقی آموزش دیده و یک رابط کاربری بصری دارد.

سانگجون هان، جی‌وون هام و همکارانشان در مقاله خود نوشته‌اند: “ما نمایش تولید موسیقی سمبولیک را معرفی می‌کنیم، با تمرکز بر ارائه موتیف‌های موسیقی کوتاه که به عنوان تم اصلی روایت عمل می‌کنند. برای تولید موسیقی، از یک مدل خودبازگشتی استفاده می‌کنیم که متادیتا موسیقی را به‌عنوان ورودی می‌گیرد و چهار میزان از دنباله‌های MIDI چندلایه تولید می‌کند.”

مدل مبتنی بر ترانسفورمر که زیربنای سیستم تولید موسیقی سمبولیک تیم است، با دو مجموعه داده موسیقی به نام‌های Lakh MIDI و MetaMIDI آموزش داده شده است. به‌طور کلی، این مجموعه داده‌ها شامل بیش از ۴۰۰,۰۰۰ فایل MIDI هستند، که فایل‌های داده‌ای هستند که اطلاعات مختلفی درباره آهنگ‌های موسیقی (مانند نت‌های نواخته شده، مدت زمان نت‌ها، سرعت نواختن آنها) را در بر دارند.

برای آموزش مدل خود، تیم تحقیقاتی هر فایل MIDI را به یک فایل REMI (نمایش رویداد موسیقی) تبدیل کرد. این فرمت خاص، داده‌های MIDI را به توکن‌هایی که ویژگی‌های مختلف موسیقی (مانند زیر و بمی و سرعت صدا) را نشان می‌دهند، کدگذاری می‌کند. فایل‌های REMI دینامیک موسیقی را به شکلی ثبت می‌کنند که به‌ویژه برای آموزش مدل‌های هوش مصنوعی در زمینه تولید موسیقی مناسب است.

محققان در ادامه نوشته‌اند: “در حین آموزش، ما به‌طور تصادفی توکن‌ها را از متادیتا موسیقی حذف می‌کنیم تا کنترل انعطاف‌پذیرتری را تضمین کنیم. این کار به کاربران آزادی انتخاب نوع ورودی را می‌دهد، در حالی که عملکرد تولیدی را حفظ می‌کند و امکان انعطاف‌پذیری بیشتری در ساخت موسیقی فراهم می‌آورد.”

علاوه بر توسعه مدل مبتنی بر ترانسفورمر برای تولید موسیقی سمبولیک، هان، هام و همکارانشان یک رابط کاربری ساده ایجاد کرده‌اند که برای کاربران متخصص و غیرمتخصص قابل دسترسی باشد. این رابط در حال حاضر شامل یک نوار کناری و یک پنل تعاملی مرکزی است.

در نوار کناری، کاربران می‌توانند جنبه‌های موسیقی که می‌خواهند مدل تولید کند را مشخص کنند، مانند اینکه چه سازهایی باید نواخته شوند و تمپوی آهنگ چقدر باشد. پس از تولید آهنگ توسط مدل، کاربران می‌توانند آهنگ را در پنل مرکزی ویرایش کنند، مثلاً با حذف/افزودن سازها یا تنظیم زمان شروع نواختن سازها.

محققان نوشته‌اند: “ما اثربخشی استراتژی را از طریق آزمایش‌ها از نظر ظرفیت مدل، وفاداری موسیقایی، تنوع و قابلیت کنترل اعتبارسنجی کردیم. علاوه بر این، مدل را توسعه داده و آن را از طریق یک آزمایش ذهنی با سایر مدل‌های تولید موسیقی مقایسه کردیم. نتایج ما نشان‌دهنده برتری مدل ما از نظر کنترل و کیفیت موسیقی است.”

محققان دریافتند که مدل آنها عملکرد بسیار خوبی داشته و می‌تواند به‌صورت قابل اطمینانی حداکثر چهار میزان موسیقی را بر اساس مشخصات کاربر تولید کند. در مطالعات آینده، آنها می‌توانند سیستم خود را با افزایش مدت قطعات موسیقی، گسترش مشخصاتی که کاربران می‌توانند ارائه دهند، و بهبود بیشتر رابط کاربری سیستم ارتقا دهند.

محققان نوشته‌اند: “مدل ما که برای تولید چهار میزان موسیقی با کنترل جهانی آموزش دیده است، در گسترش طول موسیقی و کنترل عناصر محلی در سطح میزان‌ها محدودیت‌هایی دارد. با این حال، تلاش‌های ما در ایجاد تم‌های موسیقی با کیفیت بالا که می‌توانند به‌عنوان لوپ استفاده شوند، اهمیت زیادی دارد.”