Microsoft’s multimodal CoDi processes and generates text, images, video, and audio



özet
Özet

Microsoft araştırmacıları, metin, resim, video ve ses dahil olmak üzere birden çok modalitede içeriği aynı anda işleyip oluşturabilen, şekillendirilebilir, difüzyon tabanlı bir yapay zeka modeli olan CoDi’yi sunar.

Composable Diffusion (CoDi), Microsoft’un bütünleştirici ve birleştirilebilir çok modlu yapay zeka geliştirmeyi amaçlayan i-Code projesi tarafından sunulmaktadır. Metin, resim, video ve ses dahil olmak üzere birden çok modalitede içeriği aynı anda işleyip oluşturabilen çok modlu bir yapay zeka modelidir. Bu model, belirli girdi yöntemleriyle sınırlı olan geleneksel üretken yapay zeka sistemlerinden farklıdır.

Eğitim veri setleri, günümüzün modalite kombinasyonlarının çoğu için az olduğundan, araştırmacılar hem girdi hem de çıktı alanındaki modaliteleri eşleştiren bir hizalama stratejisi kullandılar. Sonuç olarak CoDi, herhangi bir girdi kombinasyonunu şartlandırmakta ve eğitim verilerinde bulunmayanlar bile herhangi bir modalite seti oluşturmakta özgürdür.

Modlar arası yapay zeka geliştirmedeki zorluklar

Geleneksel tek modaliteli AI modellerinin sınırlamalarını ele alan CoDi, modaliteye özgü üretken modelleri birleştirmenin genellikle hantal ve yavaş sürecine bir çözüm sunar.

reklam

Bu yeni model, difüzyon sürecinde hizalama arasında köprü oluşturan ve zamansal olarak hizalanmış video ve ses gibi iç içe geçmiş modalitelerin senkronize üretimini kolaylaştıran benzersiz bir şekillendirilebilir üretim stratejisi kullanır.

Video: Microsoft

CoDi’nin eğitim süreci de kendine özgüdür. Görüntüler, video, ses ve dil gibi girdi modalitelerinin ortak bir semantik alana yansıtılmasını içerir. Bu, çok modlu girdilerin esnek bir şekilde işlenmesine izin verir ve bir çapraz dikkat modülü ve bir ortam kodlayıcı ile, aynı anda herhangi bir çıktı modalitesi kombinasyonunu üretebilir.

“kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlüklü”

Araştırmacılar CoDi’nin yeteneklerine örnekler verin, ayrı metin, ses ve görüntü istemlerinden senkronize video ve ses oluşturma yeteneğini gösteriyor. Bir örnekte, girdiler arasında “kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlüklü” metin istemi, Times Meydanı’nın bir görüntüsü ve yağmur sesi yer alıyordu.

CoDi, eş zamanlı yağmur ve sokak gürültüsü eşliğinde Times Meydanı’nda yağmurda kaykay yapan bir oyuncak ayının düşük kaliteli de olsa kısa bir videosunu oluşturdu.

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top