🔹 هوش مصنوعی (AI) فرصتهای جدید و جالبی را برای صنعت موسیقی ایجاد کرده است، مانند توسعه ابزارهایی که میتوانند بهطور خودکار آهنگهای موسیقی یا قطعات مربوط به سازهای خاص تولید کنند. با این حال، بیشتر این ابزارها برای استفاده توسط موسیقیدانان، آهنگسازان و تولیدکنندگان موسیقی طراحی شدهاند و کمتر به کاربران غیرحرفهای توجه داشتهاند.
🔸 محققان LG AI Research اخیراً یک سیستم تعاملی جدید توسعه دادهاند که به هر کاربری اجازه میدهد به راحتی ایدههای خود را به موسیقی تبدیل کند. این سیستم که در مقالهای منتشر شده در سرور پیشچاپ arXiv معرفی شده، ترکیبی از یک ترانسفورمر فقط دیکودر خودبازگشتی است که بر روی دادههای موسیقی آموزش دیده و یک رابط کاربری بصری دارد.
🔹 سانگجون هان، جیوون هام و همکارانشان در مقاله خود نوشتهاند: “ما نمایش تولید موسیقی سمبولیک را معرفی میکنیم، با تمرکز بر ارائه موتیفهای موسیقی کوتاه که به عنوان تم اصلی روایت عمل میکنند. برای تولید موسیقی، از یک مدل خودبازگشتی استفاده میکنیم که متادیتا موسیقی را بهعنوان ورودی میگیرد و چهار میزان از دنبالههای MIDI چندلایه تولید میکند.”
🔸 مدل مبتنی بر ترانسفورمر که زیربنای سیستم تولید موسیقی سمبولیک تیم است، با دو مجموعه داده موسیقی به نامهای Lakh MIDI و MetaMIDI آموزش داده شده است. بهطور کلی، این مجموعه دادهها شامل بیش از ۴۰۰,۰۰۰ فایل MIDI هستند، که فایلهای دادهای هستند که اطلاعات مختلفی درباره آهنگهای موسیقی (مانند نتهای نواخته شده، مدت زمان نتها، سرعت نواختن آنها) را در بر دارند.
🔹 برای آموزش مدل خود، تیم تحقیقاتی هر فایل MIDI را به یک فایل REMI (نمایش رویداد موسیقی) تبدیل کرد. این فرمت خاص، دادههای MIDI را به توکنهایی که ویژگیهای مختلف موسیقی (مانند زیر و بمی و سرعت صدا) را نشان میدهند، کدگذاری میکند. فایلهای REMI دینامیک موسیقی را به شکلی ثبت میکنند که بهویژه برای آموزش مدلهای هوش مصنوعی در زمینه تولید موسیقی مناسب است.
🔸 محققان در ادامه نوشتهاند: “در حین آموزش، ما بهطور تصادفی توکنها را از متادیتا موسیقی حذف میکنیم تا کنترل انعطافپذیرتری را تضمین کنیم. این کار به کاربران آزادی انتخاب نوع ورودی را میدهد، در حالی که عملکرد تولیدی را حفظ میکند و امکان انعطافپذیری بیشتری در ساخت موسیقی فراهم میآورد.”
🔹 علاوه بر توسعه مدل مبتنی بر ترانسفورمر برای تولید موسیقی سمبولیک، هان، هام و همکارانشان یک رابط کاربری ساده ایجاد کردهاند که برای کاربران متخصص و غیرمتخصص قابل دسترسی باشد. این رابط در حال حاضر شامل یک نوار کناری و یک پنل تعاملی مرکزی است.
🔸 در نوار کناری، کاربران میتوانند جنبههای موسیقی که میخواهند مدل تولید کند را مشخص کنند، مانند اینکه چه سازهایی باید نواخته شوند و تمپوی آهنگ چقدر باشد. پس از تولید آهنگ توسط مدل، کاربران میتوانند آهنگ را در پنل مرکزی ویرایش کنند، مثلاً با حذف/افزودن سازها یا تنظیم زمان شروع نواختن سازها.
🔹 محققان نوشتهاند: “ما اثربخشی استراتژی را از طریق آزمایشها از نظر ظرفیت مدل، وفاداری موسیقایی، تنوع و قابلیت کنترل اعتبارسنجی کردیم. علاوه بر این، مدل را توسعه داده و آن را از طریق یک آزمایش ذهنی با سایر مدلهای تولید موسیقی مقایسه کردیم. نتایج ما نشاندهنده برتری مدل ما از نظر کنترل و کیفیت موسیقی است.”
🔸 محققان دریافتند که مدل آنها عملکرد بسیار خوبی داشته و میتواند بهصورت قابل اطمینانی حداکثر چهار میزان موسیقی را بر اساس مشخصات کاربر تولید کند. در مطالعات آینده، آنها میتوانند سیستم خود را با افزایش مدت قطعات موسیقی، گسترش مشخصاتی که کاربران میتوانند ارائه دهند، و بهبود بیشتر رابط کاربری سیستم ارتقا دهند.
🔹 محققان نوشتهاند: “مدل ما که برای تولید چهار میزان موسیقی با کنترل جهانی آموزش دیده است، در گسترش طول موسیقی و کنترل عناصر محلی در سطح میزانها محدودیتهایی دارد. با این حال، تلاشهای ما در ایجاد تمهای موسیقی با کیفیت بالا که میتوانند بهعنوان لوپ استفاده شوند، اهمیت زیادی دارد.” ✨
نظرات کاربران