Metinden videoya sistemler, yazılı kelimeleri dinamik görsellere dönüştürür. Şimdi, Zeroscope bu teknolojiyi ücretsiz bir yazılım olarak sunuyor.
Zeroscope’tan kaynaklanıyor model kapsamı (gösterim), 1,7 milyar parametreye sahip çok düzeyli bir metinden videoya difüzyon modeli. Metinsel açıklamalara dayalı video içeriği oluşturur. Zeroscope, Shutterstock filigranı olmadan ve 16:9 en boy oranına daha yakın daha yüksek çözünürlük sunarak bu konsepti geliştirir.
Zeroscope iki bileşene sahiptir: Zeroscope_v2 567w, video kavramlarını keşfetmek için 576×320 piksel çözünürlükte hızlı içerik oluşturmak üzere tasarlanmıştır. Daha sonra kaliteli videolar, zeroscope_v2 XL kullanılarak 1024×576 “yüksek tanımlı” çözünürlüğe yükseltilebilir. Aşağıdaki demo videodaki müzik post prodüksiyonda eklenmiştir.
Video: Zeroscope XL
reklam
Video üretimi için model, saniyede 30 kare kare hızında 576×320 piksel çözünürlükte 7,9 GB VRam ve aynı kare hızında 1024×576 piksel çözünürlükte 15,3 GB VRam gerektiriyor. Bu nedenle, daha küçük model birçok standart grafik kartında çalışmalıdır.
Zeroscope’un eğitimi, her biri 24 kareden oluşan 9.923 klibe ve 29.769 etiketli kareye uygulanan ofset gürültüsünü içeriyordu. Dengeleme gürültüsü, video kareleri içindeki nesnelerin rasgele kaymalarını, kare zamanlamalarında küçük değişiklikleri veya küçük bozulmaları içerebilir.
Eğitim sırasındaki bu gürültü girişi, modelin veri dağıtımını anlamasını geliştirir. Sonuç olarak, model daha çeşitli gerçekçi videolar oluşturabilir ve metin açıklamalarındaki varyasyonları daha etkili bir şekilde yorumlayabilir.
Bu, Runway için açık kaynaklı bir yarışma olabilir mi?
Modelscope ile deneyimi olan Zeroscope geliştiricisi “Cerspense”e göre, 24 GB VRam ile bir modele ince ayar yapmak “çok zor” değil. İnce ayar işlemi sırasında Modelscope filigranlarını kaldırdı.
Modelini, Runway ML tarafından sunulan ticari metinden videoya model olan “Gen-2’yi alt etmek için tasarlanmış” olarak tanımlıyor. Cerspense’e göre Zeroscope, halka açık kullanım için tamamen ücretsizdir.
Öneri
AI sanatçısı ve geliştiricisi “nokta simülasyonu” aşağıdaki videoda ZeroscopeXL tarafından oluşturulan videoların daha fazla örneğini gösterir.
İkisi birden 567w Ve Zeroscope v2 XL nasıl kullanılacağına dair talimatlar da sunan Hugging Face’ten ücretsiz olarak indirilebilir. A Zeroscope at Colab’ın bir eğitim içeren sürümü burada mevcuttur.
Metinden videoya teknolojisi, metinden görüntüye kadar hızlı gelişebilir mi?
Metinden videoya dönüştürme henüz emekleme aşamasında. AI tarafından oluşturulan klipler genellikle yalnızca birkaç saniye uzunluğundadır ve birçok görsel kusur içerir. Bununla birlikte, görüntü yapay zeka modelleri başlangıçta benzer sorunlarla karşılaştı ancak aylar içinde fotogerçekçiliğe ulaştı. Ancak bu modellerden farklı olarak video oluşturma, hem eğitim hem de oluşturma açısından çok daha yoğun kaynak gerektirir.
Google, henüz piyasaya sürülmemiş olsalar da, yüksek çözünürlüklü, daha uzun, mantıksal olarak tutarlı klipler oluşturabilen iki metinden videoya model olan Phenaki ve Imagen Video’yu zaten tanıttı. Meta’nın metinden videoya bir model olan Make-a-Video modeli de yayınlanmadı.
Şu anda, yalnızca Runway’in Gen-2’si ticari olarak mevcuttur ve artık iPhone’da mevcuttur. Zeroscope, ilk yüksek kaliteli açık kaynak modelinin gelişini işaret ediyor.