Kararlı Difüzyon veya GPT-4’ün yaratıcı yetenekleri iyi bilinmektedir. Ancak, karmaşık hikayeler için tutarlılıktan yoksundurlar. SHOW-1 bunu değiştirmeyi hedefliyor.
AI şirketi Fable Studio, birkaç modeli SHOW-1 adlı yeni bir modelde birleştirdi. Bir dizinin birkaç tutarlı bölümünü oluşturma yeteneğine sahiptir.
Konseptlerinin şaşırtıcı bir şekilde AI’nın eğlence endüstrisi üzerindeki etkisiyle ilgili olan 22 dakikalık bir “South Park” bölümü ile çalıştığını kanıtladılar.
Başlamak için modelin yalnızca bir başlığa, özete ve ana olaylara ihtiyacı vardır
Eksiksiz bir South Park bölümü oluşturmak karmaşık bir süreçtir. Hikaye anlatma sistemi, genellikle bir başlık, özet ve simüle edilmiş bir hafta içinde (yaklaşık üç saatlik oyun) gerçekleşmesi gereken önemli olaylar şeklinde soyut düzeyde bir fikirle başlatılır. Tek bir sahne oluşturmak, bir dakikaya kadar “önemli miktarda zaman” alabilir.
reklam
- Sistem, simülasyon verilerine dayalı olarak otomatik olarak 14 adede kadar sahne oluşturur.
- Bir showrunner sistemi, karakter kadrosunu düzenler ve olay örgüsünü önceden belirlenmiş bir modele göre şekillendirir.
- Her sahneye, farklı karakter grupları arasında geçiş yapmak için kullanılan bir olay örgüsü harfi (ABC) atanır.
- Her sahne konumu, karakterleri ve diyaloğu tanımlar.
- Sahneleme ve AI kamera sisteminin ilk kurulumundan sonra sahne, olay örgüsüne göre oynatılır.
- Karakterlerin sesleri önceden eğitildi ve her yeni satır için gerçek zamanlı olarak ses klipleri oluşturuldu.

Fable Studio’nun çalışması, Stanford ve Google bilim adamları tarafından Nisan ayında yayınlanan “Generative Agents” adlı başka bir araştırma makalesine dayanmaktadır. İçinde sanal bir şehri simüle ettiler ve sözde ajanların – sakinlerin – gerçekçi bir günlük rutini takip etmek ve birbirleriyle etkileşim kurmak için kaç varsayılana ihtiyaç duyduğunu gözlemlediler.
GPT-4, özel difüzyon modelleri ve klonlanmış sesler
Diğer şeylerin yanı sıra SHOW-1, simülasyondaki ajanları etkilemek ve South Park bölümleri için sahneler oluşturmak üzere OpenAI’nin GPT-4’ünü kullanır.
Fable Studio’ya göre South Park bölümlerinin çoğunun transkriptleri GPT-4’ün eğitim veri setinin bir parçası olduğundan, dizinin karakter kişiliklerini, konuşma tarzlarını ve genel mizahını zaten iyi anlıyor. Ekip, bu dramatik parmak izinin bir gösterinin tutarlılığı için önemli olduğunu söylüyor.
İstem zinciri oluşturma veya birden çok istemin bağlanması başka bir temel sağlar. Film ve televizyon için senaryolar yazan Deepmind’s Dramatron da bu tekniği kullanıyor.
SHOW-1 söz konusu olduğunda, GPT-4, Auto-GPT kavramına benzer şekilde, yanıtlar için kendi ayırt edici işlevi görür. Ancak ekibe göre bir hikaye oluşturmak “oldukça süreksiz bir görev” ve biraz “evreka” düşünmeyi gerektiriyor.
Öneri
Görselleştirme için geliştiriciler, yaklaşık 1.200 karakter ve 600 arka plandan oluşan bir veri kümesi kullandı. İki özel Kararlı Difüzyon modelini eğitmek için DreamBooth’u kullandılar: biri tek renkli bir arka plana karşı bireysel karakterler oluşturmak için, diğeri ise modüler bir tarzda bir araya getirilebilmeleri için arka planların kendileri için.
Bu yaklaşımın özelliği, kullanıcıların karakter modelini kullanarak kendi karakterlerini yaratabilmeleri ve simülasyona katılabilmeleridir.

Bununla birlikte, difüzyon modellerinin nispeten düşük çözünürlüğü nedeniyle görüntü kalitesi sınırlıdır, bu nedenle gelecekte geliştiriciler grafikleri kayıp olmadan yükseltmek için GPT-4 aracılığıyla SVG vektörleri oluşturmayı önermektedir.
Ne kumar ne lapa ne de boş sayfa
Mevcut AI modelleri, diğerlerinin yanı sıra, SHOW-1’in tamamen çözmediği, ancak en azından azalttığı aşağıdaki problemlerle uğraşmak zorunda kalacaktır:
- Slot Makinesi Etkisi: Bu teoriye göre, çoğu AI modelinin kullanımı kumar oynamaya benzer, çünkü sonuçlar hiç tahmin edilemez veya sadece zorlukla tahmin edilebilir.
- Yulaf Ezmesi Sorunu: Mevcut modellere yönelik bir başka eleştiri de her şeyin aynı göründüğü gözlemidir. Dizi bölümleri söz konusu olduğunda, izleyici kalıpları tanıdığında ve artık şaşıramadığında bu durum özellikle ölümcüldür.
- Boş Sayfa Sorunu: Fable Studios’a göre, deneyimli yazarlar bile bazen bir başlık veya hikaye fikri bulmaları istendiğinde bunalmış hissediyorlar. Bu, önceki simülasyonun bağlamından dolayı SHOW-1’deki büyük bir dil modelinde gerçekleşemez.

Kim neyden sorumlu?
Ve nihayetinde AI bölümünün yaratıcısı kim? Cevap ilk bakışta göründüğünden daha karmaşık. Görev, SHOW-1, GPT-4 ve simülasyon kullanıcıları arasında paylaşılır ve kimin görüşüne ne kadar ağırlık verileceğini belirlemek mümkündür.
Simülasyon genellikle temel IP tabanlı bağlamı, karakter geçmişlerini, duyguları, olayları ve ilk yaratıcı süreci besleyen yerellikleri sağlar. Kullanıcı niyetlerini ortaya koyar, aracılar üzerinde davranışsal kontrol uygular ve üretici süreci başlatan ilk istemleri sağlar.
Kullanıcı ayrıca, sürecin sonunda oluşturulan hikaye içeriğini değerlendirerek nihai ayrımcı olarak da hizmet eder. Öte yandan GPT-4, hem kullanıcıdan hem de simülasyondan aldığı istemlere dayalı olarak sahneleri ve diyalogları yaratan ve tahmin eden ana üretim motoru olarak hizmet eder. Bu, her bir katılımcının güçlü yönlerinin tutarlı ve ilgi çekici bir hikayeye katkıda bulunduğu simbiyotik bir süreçtir.
Daha da önemlisi, bilgi istemi zinciri biçimindeki çok adımlı yaklaşımımız aynı zamanda kontroller ve dengeler sağlayarak istenmeyen rastgelelik potansiyelini azaltır ve IP hikayesi dünyasıyla daha tutarlı uyum sağlamaya olanak tanır.
kağıttan
SHOW-1’in yayınlanmasından önce bile eğlence endüstrisi bir kargaşa içindeydi. Yazarlar özellikle yapay zekanın ilerlemesinden dolayı kendilerini tehdit altında hissediyorlar. Fable Studio, makalesinde bu korkulara açıkça değinmiyor.
Aksine, yaklaşımlarının yaratıcı hikaye anlatımı için mevcut modellerin sınırlamalarını aşmak için etkili bir çözüm sunduğunu savunuyorlar.
“Bu yaklaşımı iyileştirmeye devam ettikçe, oluşturulan içeriğin kalitesini, kullanıcı deneyimini ve hikaye anlatımında üretken AI sistemlerinin yaratıcı potansiyelini daha da artırabileceğimizden eminiz.”