Microsoft araştırmacıları, metin, resim, video ve ses dahil olmak üzere birden çok modalitede içeriği aynı anda işleyip oluşturabilen, şekillendirilebilir, difüzyon tabanlı bir yapay zeka modeli olan CoDi’yi sunar.
Composable Diffusion (CoDi), Microsoft’un bütünleştirici ve birleştirilebilir çok modlu yapay zeka geliştirmeyi amaçlayan i-Code projesi tarafından sunulmaktadır. Metin, resim, video ve ses dahil olmak üzere birden çok modalitede içeriği aynı anda işleyip oluşturabilen çok modlu bir yapay zeka modelidir. Bu model, belirli girdi yöntemleriyle sınırlı olan geleneksel üretken yapay zeka sistemlerinden farklıdır.
Eğitim veri setleri, günümüzün modalite kombinasyonlarının çoğu için az olduğundan, araştırmacılar hem girdi hem de çıktı alanındaki modaliteleri eşleştiren bir hizalama stratejisi kullandılar. Sonuç olarak CoDi, herhangi bir girdi kombinasyonunu şartlandırmakta ve eğitim verilerinde bulunmayanlar bile herhangi bir modalite seti oluşturmakta özgürdür.
Modlar arası yapay zeka geliştirmedeki zorluklar
Geleneksel tek modaliteli AI modellerinin sınırlamalarını ele alan CoDi, modaliteye özgü üretken modelleri birleştirmenin genellikle hantal ve yavaş sürecine bir çözüm sunar.
reklam
Bu yeni model, difüzyon sürecinde hizalama arasında köprü oluşturan ve zamansal olarak hizalanmış video ve ses gibi iç içe geçmiş modalitelerin senkronize üretimini kolaylaştıran benzersiz bir şekillendirilebilir üretim stratejisi kullanır.
Video: Microsoft
CoDi’nin eğitim süreci de kendine özgüdür. Görüntüler, video, ses ve dil gibi girdi modalitelerinin ortak bir semantik alana yansıtılmasını içerir. Bu, çok modlu girdilerin esnek bir şekilde işlenmesine izin verir ve bir çapraz dikkat modülü ve bir ortam kodlayıcı ile, aynı anda herhangi bir çıktı modalitesi kombinasyonunu üretebilir.
“kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlüklü”
Araştırmacılar CoDi’nin yeteneklerine örnekler verin, ayrı metin, ses ve görüntü istemlerinden senkronize video ve ses oluşturma yeteneğini gösteriyor. Bir örnekte, girdiler arasında “kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlüklü” metin istemi, Times Meydanı’nın bir görüntüsü ve yağmur sesi yer alıyordu.
CoDi, eş zamanlı yağmur ve sokak gürültüsü eşliğinde Times Meydanı’nda yağmurda kaykay yapan bir oyuncak ayının düşük kaliteli de olsa kısa bir videosunu oluşturdu.
Öneri
CoDi’nin potansiyel uygulamaları çoktur. Araştırmacılar, eğitim ve engelli insanlar için erişilebilirlik gibi sektörlerdeki olası kullanımlarının altını çiziyor.
Çalışmamız, daha ilgi çekici ve bütünsel insan-bilgisayar etkileşimlerine yönelik önemli bir adımı işaret ediyor ve üretken yapay zekada gelecekteki araştırmalar için sağlam bir temel oluşturuyor.
kağıttan