Meta’s open source AI MusicGen turns text and melody into new songs



özet
Özet

Meta’nın MusicGen’i, isteğe bağlı olarak mevcut bir melodiyle hizalanabilen metin istemlerine dayalı yeni kısa müzik parçaları oluşturabilir.

Günümüzdeki çoğu dil modeli gibi, MusicGen de bir Transformer modelini temel alır. Tıpkı bir dil modelinin bir cümledeki sonraki karakterleri tahmin etmesi gibi, MusicGen de bir müzik parçasındaki sonraki bölümü tahmin eder.

Araştırmacılar, ses verilerini kullanarak daha küçük bileşenlere ayırırlar. Meta’nın EnCodec ses belirteci. Jetonları paralel olarak işleyen tek aşamalı bir model olarak MusicGen hızlı ve verimlidir.

Ekip, eğitim için 20.000 saatlik lisanslı müzik kullandı. Özellikle, Shutterstock ve Pond5’ten alınan müzik verilerinin yanı sıra 10.000 yüksek kaliteli müzik parçasından oluşan dahili bir veri kümesine güvendiler.

reklam

MusicGen hem metin hem de müzik istemlerini işleyebilir

Mimarinin verimliliğine ve üretim hızına ek olarak MusicGen, hem metin hem de müzik istemlerini işleme yeteneği bakımından benzersizdir. Metin, daha sonra ses dosyasındaki melodiyle eşleşen temel stili ayarlar.

Örneğin, “senkoplu davullar, havadar pedler ve güçlü duygular ile hafif ve neşeli bir EDM parçası, tempo: 130 BPM” metin istemini Bach’ın dünyaca ünlü “Toccata and Fugue in D Minor (BWV 565)” melodisiyle birleştirirseniz “, aşağıdaki müzik parçası oluşturulabilir.

Video: Meta

Melodinin yönünü tam olarak kontrol edemezsiniz, örneğin bir melodiyi farklı tarzlarda duymak için. Yalnızca üretim için kaba bir kılavuz görevi görür ve çıktıya tam olarak yansıtılmaz.

MusicGen, Google’ın MusicLM’sinin hemen önünde

Çalışmanın yazarları, modellerinin farklı boyutlardaki üç versiyonu üzerinde testler yaptı: 300 milyon (300M), 1,5 milyar (1,5B) ve 3,3 milyar (3,3B) parametre. Daha büyük modellerin daha yüksek kaliteli ses ürettiğini, ancak 1,5 milyar parametreli modelin insanlar tarafından en iyi şekilde derecelendirildiğini buldular. Öte yandan 3,3 milyar parametreli model, metin girişi ile ses çıkışını doğru bir şekilde eşleştirmede daha iyidir.

Öneri

Github’da açık kaynak olarak kod ve modellerve ticari kullanıma izin verilir. Bir demo mevcut Huggingface’te.

Hedef Ölçüt:Fréchet Ses Mesafesi (FAD): Geringere Werte zeigen an, bu das die generiertentententenent Audiodatenboussibler sind.  Kullback-Leibler-Divergenz (KL): En iyi müzik grubudur, bu da özgün bir Müzik Konzepte ve Müzik Referansı'dır.  CLAP-Bewertung: Audio-Text-Ausrichtung'u nicel olarak belirleyebilirsiniz.  Subjective Metriken: Gesamtqualität (OVL): Menschliche Bewerter bewerteten die Wahrnehmungsqualität der Hörproben auf einer Skala von 1 ila 100. Relevanz zur Texteingabe (REL): Menschliche Bewerter bewerteten die Übereinstimmung zwischen Audio und Text auf einer Skala von 1 bis 100. 100.
Objektif ölçütler: Fréchet Ses Mesafesi (FAD): daha düşük değerler, üretilen sesin daha makul olduğunu gösterir. Kullback-Leibler Sapması (KL): daha düşük bir değer, oluşturulan müziğin referans müzikle benzer kavramlara sahip olduğunu gösterir. CLAP puanı: Bu puan, sesli metin hizalamasını nicelleştirir. Öznel ölçütler: Genel Kalite (OVL): İnsan puanlayıcılar, ses örneklerinin algısal kalitesini 1 ila 100 arasında derecelendirdi. Metin Girişiyle İlgililik (REL): İnsan puanlayıcılar, ses ve metin arasındaki eşleşmeyi 1 ila 100 arasında derecelendirdi. Görüntü : meta

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top