New method improves Stable Diffusion without training data



özet
Özet

Stable Difüzyon, Takviyeli Öğrenme ile buluşuyor – aşağı akış görevlerindeki görüntüler için üretken yapay zeka modellerinin nasıl etkili bir şekilde eğitileceğini gösteriyor.

Difüzyon modelleri artık görüntü sentezinde standarttır ve yapay protein sentezinde ilaç tasarımına yardımcı olabilecek uygulamaları vardır. Difüzyon işlemi, rastgele gürültüyü bir görüntü veya protein yapısı gibi bir kalıba dönüştürür.

Eğitim sırasında, difüzyon modelleri, içeriği eğitim verilerinden adım adım yeniden oluşturmayı öğrenir. Araştırmacılar şimdi, görüntülerin estetik kalitesini iyileştirmek gibi belirli hedeflere ulaşmak için üretici yapay zeka modellerinde ince ayar yapmak için takviyeli öğrenmeyi kullanarak bu sürece müdahale etmeye çalışıyor. Bu, OpenAI’nin ChatGPT’si gibi büyük dil modellerinin ince ayarından ilham almıştır.

Daha estetik görüntüler için pekiştirmeli öğrenme?

Berkeley Scientific Intelligence Research’ten yeni bir makale, farklı hedeflere ince ayar yapmak için Gürültü Giderici Yayılma Politikası Optimizasyonu (DDPO) kullanılarak pekiştirmeli öğrenmenin etkinliğini inceliyor.

reklam

Ekip, Kararlı Difüzyonu dört görev üzerinde eğitiyor:

  • Sıkıştırılabilirlik: JPEG algoritması kullanılarak görüntüyü sıkıştırmak ne kadar kolay? Ödül, JPEG olarak kaydedildiğinde görüntünün negatif dosya boyutudur (kB olarak).
  • Sıkıştırılamazlık: Görüntünün JPEG algoritması kullanılarak sıkıştırılması ne kadar zor? Ödül, JPEG olarak kaydedildiğinde görüntünün pozitif dosya boyutudur (kB cinsinden).
  • Estetik Kalite: Görüntü insan gözüne estetik açıdan ne kadar çekici geliyor? Ödül, insan tercihleri ​​üzerine eğitilmiş bir sinir ağı olan LAION estetik belirleyicisinin çıktısıdır.
  • Bilgi İstemi-Görüntü Hizalaması: Görüntü, bilgi isteminde isteneni ne kadar iyi temsil ediyor? Bu biraz daha karmaşık: görüntüyü LLaVA’ya besliyoruz, görüntüyü tanımlamasını istiyoruz ve ardından BERTScore kullanarak bu açıklama ile orijinal bilgi istemi arasındaki benzerliği hesaplıyoruz.
LLaVA, istemi ve görüntüyü birbirine yaklaştırmaya yardımcı olur. | Resim: BAİR

Ekip, testlerinde DDPO’nun dört görevi optimize etmek için etkili bir şekilde kullanılabileceğini gösterdi. Ek olarak, bazı genelleştirilebilirlik gösterdiler: örneğin, estetik kalite veya hızlı görüntü hizalaması için optimizasyonlar, 45 yaygın hayvan türü için yapıldı, ancak diğer hayvan türlerine veya cansız nesnelerin temsiline de aktarılabilirdi.

Video: BAİR

Yeni yöntem eğitim verisi gerektirmez

Takviyeli öğrenmede yaygın olduğu gibi, DDPO ayrıca ödülün aşırı optimize edilmesi olgusunu sergiler: model, ödülü en üst düzeye çıkarmak için belirli bir noktadan sonra tüm görevlerdeki tüm anlamlı görüntü içeriğini yok eder. Bu sorunun daha ileri çalışmalarda araştırılması gerekmektedir.

Resim: BAİR

Yine de, yöntem umut vericidir: “Bulduğumuz şey, difüzyon modellerini, örüntü eşleştirmenin ötesine geçen bir şekilde ve herhangi bir eğitim verisi gerektirmeden etkili bir şekilde eğitmenin bir yolunu buldu. Olasılıklar yalnızca kalite ve yaratıcılıkla sınırlıdır. senin ödül fonksiyonun.”

Öneri

DDPO’daki BAIR proje sayfası.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top