Meta’nın MusicGen’i, isteğe bağlı olarak mevcut bir melodiyle hizalanabilen metin istemlerine dayalı yeni kısa müzik parçaları oluşturabilir.
Günümüzdeki çoğu dil modeli gibi, MusicGen de bir Transformer modelini temel alır. Tıpkı bir dil modelinin bir cümledeki sonraki karakterleri tahmin etmesi gibi, MusicGen de bir müzik parçasındaki sonraki bölümü tahmin eder.
Araştırmacılar, ses verilerini kullanarak daha küçük bileşenlere ayırırlar. Meta’nın EnCodec ses belirteci. Jetonları paralel olarak işleyen tek aşamalı bir model olarak MusicGen hızlı ve verimlidir.
Ekip, eğitim için 20.000 saatlik lisanslı müzik kullandı. Özellikle, Shutterstock ve Pond5’ten alınan müzik verilerinin yanı sıra 10.000 yüksek kaliteli müzik parçasından oluşan dahili bir veri kümesine güvendiler.
reklam
MusicGen hem metin hem de müzik istemlerini işleyebilir
Mimarinin verimliliğine ve üretim hızına ek olarak MusicGen, hem metin hem de müzik istemlerini işleme yeteneği bakımından benzersizdir. Metin, daha sonra ses dosyasındaki melodiyle eşleşen temel stili ayarlar.
Örneğin, “senkoplu davullar, havadar pedler ve güçlü duygular ile hafif ve neşeli bir EDM parçası, tempo: 130 BPM” metin istemini Bach’ın dünyaca ünlü “Toccata and Fugue in D Minor (BWV 565)” melodisiyle birleştirirseniz “, aşağıdaki müzik parçası oluşturulabilir.
Video: Meta
Melodinin yönünü tam olarak kontrol edemezsiniz, örneğin bir melodiyi farklı tarzlarda duymak için. Yalnızca üretim için kaba bir kılavuz görevi görür ve çıktıya tam olarak yansıtılmaz.
MusicGen, Google’ın MusicLM’sinin hemen önünde
Çalışmanın yazarları, modellerinin farklı boyutlardaki üç versiyonu üzerinde testler yaptı: 300 milyon (300M), 1,5 milyar (1,5B) ve 3,3 milyar (3,3B) parametre. Daha büyük modellerin daha yüksek kaliteli ses ürettiğini, ancak 1,5 milyar parametreli modelin insanlar tarafından en iyi şekilde derecelendirildiğini buldular. Öte yandan 3,3 milyar parametreli model, metin girişi ile ses çıkışını doğru bir şekilde eşleştirmede daha iyidir.
Öneri
Riffusion, Mousai, MusicLM ve Noise2Music gibi diğer müzik modelleriyle karşılaştırıldığında MusicGen, müziğin sözlerle ne kadar iyi eşleştiğini ve bestenin ne kadar makul olduğunu test eden hem nesnel hem de öznel ölçümlerde daha iyi performans gösterir. Genel olarak, modeller Google’ın MusicLM seviyesinin hemen üzerindedir.
Meta yayınladı Github’da açık kaynak olarak kod ve modellerve ticari kullanıma izin verilir. Bir demo mevcut Huggingface’te.
