Video-ChatGPT, bir sahnedeki güvenlik risklerini açıklama, mizahi yönleri vurgulama veya eşleşen reklam metni oluşturma gibi metinsel görevleri çözerek videoyu zaman içinde tanımlayabilir.
Runway ML gibi şirketler metni videoya dönüştürme konusunda ilerleme kaydederken, Video-ChatGPT diğer yoldan giderek bir dil modeline videoyu analiz etme yeteneği veriyor. Video-ChatGPT, bir videonun içeriğini metin olarak açıklayabilir, örneğin alışılmadık bir öğeyi vurgulayarak bir klibin neden komik olabileceğini açıklayabilir.
Geliştiriciler bunu bir dalış tahtasından suya atlayan bir zürafanın videosuyla gösteriyor. Video-ChatGPT, “Zürafalar akrobasi becerileri veya dalış yetenekleriyle bilinmediğinden, bu yaygın bir manzara değil” diyor.

Resim: Maaz ve ark.
reklam
Açık kaynaklı bir dil modeline bağlı önceden eğitilmiş video kodlayıcı
Araştırmacılar, Video-ChatGPT’nin tasarımını basit ve kolayca ölçeklenebilir olarak tanımlıyor. Önceden eğitilmiş bir video kodlayıcı kullanır ve onu önceden eğitilmiş ve ardından ince ayarı yapılmış bir dil modeliyle birleştirir.
Abu Dabi’deki Mohamed bin Zayed Yapay Zeka Üniversitesi’nin projesi, ismine rağmen OpenAI teknolojisini kullanmıyor. Bunun yerine, açık kaynaklı Vicuna-7B modelini temel alır. Araştırmacılar, video kodlayıcıyı dil modeline bağlamak için doğrusal bir katman yerleştirdiler.
Belirli bir görevi isteyen kullanıcı bilgi istemine ek olarak, dil modelinden rolünü ve genel işini tanımlayan bir sistem komutu da istenir.

İnsan ve makine ile geliştirilmiş veri kümesi
Araştırmacılar, Vicuna modelinde ince ayar yapmak için yüksek kaliteli veriler oluşturmak için insan açıklama ve yarı otomatik yöntemlerin bir karışımını kullandılar. Bu veriler, ayrıntılı açıklamalardan yaratıcı görevlere ve röportajlara kadar uzanır ve çeşitli farklı kavramları kapsar.
Toplamda, veri seti yaklaşık 86.000 yüksek kaliteli soru-cevap çifti içerir, bazıları insanlar tarafından, bazıları GPT modelleri tarafından ve bazıları da görüntü analiz sistemlerinden bağlamla açıklanır.
Öneri

Video-ChatGPT’nin kalbi, video anlama ve metin oluşturmayı birleştirme yeteneğidir. Video akıl yürütme, yaratıcılık ve zaman ve mekan anlayışındaki yetenekleri kapsamlı bir şekilde test edilmiştir. Aşağıdaki videoda ve GitHub deposunda daha fazla örnek görün.
Şimdilik, Video-ChatGPT yalnızca çevrimiçi bir demo olarak mevcutturancak geliştiriciler GitHub’da kod ve modeller yayınlayın yakın gelecekte.
Çok modlu yapay zeka geleceği
Metin üretimindeki son önemli gelişmelerden sonra, OpenAI ve Google gibi şirketler çok modlu modellere yöneliyor. Bard görüntüleri anlıyor ve bunlara yanıt verebiliyor ve GPT-4, OpenAI henüz yayınlamamış olsa da bu yeteneklerini resmi lansmanında gösterdi.
Görüntülerden hareketli görüntülere geçmek bir sonraki mantıklı adım olacaktır. Google, bu yıl içinde piyasaya sürülecek olan Project Gemini ile büyük bir çok modlu yapay zeka modelinin geliştirildiğini zaten duyurdu.