הכירו את הכלי החדש מבית מטא (פייסבוק), שנקרא MusicGen ונועד על מנת להפוך טקסטים למוסיקה ע"י פרומפטים.
חוקרי הבינה המלאכותית של פייסבוק אימנו את המודל של מיוזקג'ן על 20,000 שעות של מוסיקה, הן על מוסיקה ברישיון והן על קבצי וקטעי מוזיקה מ-ShutterStock ו-Pond5 ועוד. ע"י המחולל ניתן אף להזין אליו (להעלות) קטעי מוסיקה משלכם ולערוך אותם ולהכניס בהם שיפורים ושינויים ע"י כלי הבינה המלאכותית של פייסבוק.
וכך כתב בכיר בפייסבוק ואף צירף קטע הדגמה בעמוד הטוויטר שלו:
צפו בהדגמה איך מיוזיקג'ן עובד…
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf— Felix Kreuk (@FelixKreuk) June 9, 2023
Audiocraft מספקת את הקוד והדגמים עבור MusicGen, מודל פשוט וניתן לשליטה ליצירת מוזיקה. MusicGen הוא דגם טרנספורמר אוטומטי רגרסיבי של שלב אחד, מאומן על 32kHz EnCodec tokenizer עם 4 ספרי קוד שנדגמו בתדר 50 הרץ.
בניגוד לשיטות קיימות כמו MusicLM, מיוזיקג'ן אינו דורש ייצוג סמנטי בפיקוח עצמי, והוא מייצר את כל 4 ספרי הקוד במעבר אחד. על ידי הכנסת השהיה קטנה בין ספרי הקוד, מה שמראה על יכולת לחזות אותם במקביל, ובכך לקבל רק 50 שלבים אוטומטיים רגרסיביים לשנייה של אודיו.
ההתקנה דורשת Python 3.9, PyTorch 2.0.0 ו-GPU עם לפחות 16 GB של זיכרון.