AudioPaLM ile Google, geniş PaLM-2 dil modeline ses özellikleri ekliyor. Bu, orijinal konuşmacının sesiyle sesli çeviriler yapılmasını sağlar.
AudioPaLM ile Google, Mayıs ayında kullanıma sunulan büyük dil modeli PaLM-2’yi üretken ses modeli AudioLM ile merkezi bir çok modlu mimaride birleştiriyor. Sistem, metin ve konuşmayı işleyebilir ve üretebilir ve konuşma tanıma veya orijinal seslerle çeviriler oluşturmak için kullanılabilir.

Babelfish yaklaşıyor
Aşağıdaki demoda gösterildiği gibi, bir kişinin aynı anda birden çok dilde konuşmasına izin verdiği için ikinci özellik özellikle dikkate değerdir.
Orijinal sese koşullandırma, ses ve SoundStream belirteci olarak iletilen yalnızca üç saniyelik bir örnek gerektirir. Ses dosyası daha kısaysa, üç saniyeye ulaşılana kadar tekrarlanır.
reklam
AudioPaLM demosu. | Video: Google
AudioPaLM, AudioLM’yi entegre ederek uzun vadeli tutarlılıkla yüksek kaliteli ses üretebilir. Bu, eğitim sırasında görülmeyen konuşmacılar için konuşmacı kimliğini ve prozodiyi korurken anlamsal olarak makul konuşma devamları üretme becerisini içerir.
Model, eğitim sırasında karşılaşılmayan konuşma kombinasyonları da dahil olmak üzere birçok dil için sıfır çekimli konuşmadan metne çeviriler de gerçekleştirebilir. Bu yetenek, gerçek zamanlı çok dilli iletişim gibi gerçek dünya uygulamaları için önemli olabilir.
AudioPaLM, geleneksel konuşmadan metne çeviri sistemlerinde genellikle kaybolan konuşmacı kimliği ve tonlama gibi dil dışı bilgileri de koruyabilir. Sistemin, otomatik ve insan değerlendirmesine dayalı olarak konuşma kalitesi açısından mevcut çözümlerden daha iyi performans göstermesi bekleniyor.
AudioPaLM, konuşma oluşturmaya ek olarak, orijinal dilde veya doğrudan çeviri olarak transkript oluşturabilir veya orijinal kaynakta konuşma üretebilir. AudioPaLM, konuşma çevirisi kıyaslamalarında en iyi sonuçları elde etti ve konuşma tanıma görevlerinde rekabetçi performans sergiledi.
Öneri
Sesli asistanlardan otomatikleştirilmiş çok dilliliğe
Potansiyel uygulamalar çoktur: çok dilli sesli asistanlar, otomatik transkripsiyon hizmetleri ve yazılı veya sözlü insan dilini anlaması veya üretmesi gereken diğer tüm sistemler.
Google, özellikle YouTube’da yapay zeka tarafından oluşturulan çok dilli videolar için kullanım örneklerini görebilir: Örneğin, orijinal konuşmacının sesini kaybetmeden çok dilli altyazılar oluşturmaya veya videoları birden çok dilde dublaj yapmaya yardımcı olabilir.
Araştırmacılar, ses belirteçlerinin optimal özelliklerini ve bunların nasıl ölçüleceğini ve optimize edileceğini anlamak da dahil olmak üzere gelecekteki araştırmalar için çeşitli alanlara işaret ediyor. Ayrıca, bu alandaki araştırmaları daha da hızlandırmaya yardımcı olacak, üretken ses görevleri için yerleşik kıyaslama ve ölçütlere duyulan ihtiyacı vurguluyorlar.
Daha fazla bilgi ve demolar şu adreste mevcuttur: Github’daki proje sayfası.