Massively Multilingual Speech projesinin bir parçası olarak Meta, 1.100 dilde konuşulan dili metne ve metni konuşmaya dönüştürebilen yapay zeka modellerini piyasaya sürüyor.
Yeni model seti, Meta’nın wav2vec’inin yanı sıra 1.100 dil için derlenmiş bir örnek veri setine ve henüz konuşma teknolojisinin bulunmadığı birkaç yüz kişi tarafından konuşulan diller de dahil olmak üzere yaklaşık 4.000 dil için başka bir derlenmemiş veri setine dayanıyor. Meta.
Model kendini 1.000’den fazla dilde ifade edebilir ve 4.000’den fazla dili tanımlayabilir. Meta’ya göre MMS, on kat daha fazla dili kapsayarak önceki modellerden daha iyi performans gösteriyor. alabilirsin mevcut tüm dillere genel bakış burada.
Yeni Ahit, yapay zeka veri kümesi olarak yeni bir kullanıma kavuşuyor
MMS’in önemli bir bileşeni İncil, özellikle de Yeni Ahit’tir. Meta veri seti, ortalama uzunluğu 32 saat olan 1.107’den fazla dilde Yeni Ahit okumaları içerir.
reklam
Meta, bu kayıtları internetten eşleşen pasajlarla birlikte kullandı. Ayrıca, Yeni Ahit okumaları da dahil olmak üzere, ek dil bilgisi içermeyen 3.809 etiketlenmemiş ses dosyası daha kullanıldı.
Güvenilir bir konuşma tanıma sistemi için dil başına 32 saat yeterli eğitim materyali olmadığından Meta, dalga2vec 2.0 1.400’den fazla dilde 500.000 saatten fazla konuşma içeren MMS modellerini önceden eğitmek için. Bu modeller daha sonra çok sayıda dili anlamak veya tanımlamak için ince ayar yapıldı.
Kıyaslamalar, çok daha farklı dillerle eğitime rağmen modelin performansının neredeyse sabit kaldığını gösteriyor. Aslında, artan eğitimle hata oranı en az yüzde 0,4 oranında azaldı.

Meta’ya göre, kapsamlı çok dillilik için açıkça optimize edilmemiş OpenAI’nin Whisper’ından da önemli ölçüde daha düşük. Yalnızca İngilizce bir karşılaştırma daha ilginç olurdu. Twitter’daki ilk test kullanıcıları, Whisper’ın burada daha iyi performans gösterdiğini bildirdi.
Testlerimde, metne transkripsiyon, kelimeleri yanlış duyma ve ima edilen noktalama işaretlerini duymama konusunda Whisper’dan daha kötü performans gösteriyor. Ayrıca, Faster-Whisper’dan yaklaşık 10 kat daha yavaştır. Fairseq, 20 GB RAM kullanırken, Whisper yaklaşık 1 GB kullanır. Bu ve diğer sebeplerden dolayı bu…
— katid (e/acc) (@MrCatid) 23 Mayıs 2023
Meta’ya göre veri setindeki seslerin ağırlıklı olarak erkek olması, kadın seslerinin anlaşılmasını veya üretilmesini olumsuz etkilemiyor.
Öneri
Ek olarak, model aşırı dini konuşma üretme eğiliminde değildir. Meta bunu, kelime içeriği ve anlamından çok konuşma kalıplarına ve dizilerine odaklanan, kullanılan sınıflandırma yaklaşımına (Connectionist Temporal Classification) atfeder.
Bununla birlikte Meta, modelin bazen kelimeleri veya cümleleri yanlış yazdığı ve bunun da yanlış veya rahatsız edici ifadelere yol açabileceği konusunda uyarıyor.
Binlerce dil için tek bir model
Meta’nın uzun vadeli hedefi, nesli tükenmekte olan dilleri korumak için mümkün olduğu kadar çok dil için tek bir dil modeli geliştirmektir. Gelecekteki modeller daha fazla dili ve hatta lehçeyi destekleyebilir.
Meta, “Amacımız, insanların bilgilere erişmesini ve cihazları tercih ettikleri dilde kullanmalarını kolaylaştırmaktır” diye yazıyor. Belirli uygulama senaryoları, VR ve AR teknolojilerini veya mesajlaşmayı içerir.
Meta, gelecekte, konuşma tanıma, konuşma sentezi ve konuşma tanımlama gibi tüm görevler için tek bir modelin eğitilebileceğini ve bunun daha da iyi bir genel performansa yol açabileceğini yazıyor.
Kod, sırasıyla 300 milyon ve bir milyar parametreli önceden eğitilmiş MMS modelleri ve konuşma tanıma ve tanımlama ve metinden konuşmaya yönelik geliştirilmiş türevler Meta tarafından şu şekilde sunulur: Github’da açık kaynaklı Modeller.