Meta’s new state-of-the-art, versatile image model is trained solely on licensed data



özet
Özet

Meta’nın en son görüntü modeli CM3leon, hem metni hem de görüntüleri anlayabilir ve oluşturabilir. Metin açıklamalarından resimler oluşturabilir ve resimlere dayalı metin oluşturabilir, bu da onu birçok görev için kullanışlı hale getirir.

CM3leon (“bukalemun” olarak telaffuz edilir), hem metinden görüntüye hem de görüntüden metne oluşturma yeteneğine sahip tek tabanlı bir modeldir. Hem metin hem de resim girebilen ve oluşturabilen salt metin dil modellerinden uyarlanmış bir tarifle eğitilmiş ilk çok modlu modeldir.

CM3Leon’un mimarisi, metin tabanlı modellere benzer şekilde, yalnızca kod çözücüye dayalı belirteç tabanlı bir dönüştürücü ağı kullanır. Önceki çalışma (RA-CM3) üzerine kuruludur ve eğitim sırasında “alma büyütme” adı verilen bir şeyle harici bir veritabanı kullanır. Diğer modeller yalnızca kendilerine beslenen ham verilerden öğrenebilirken, alma artırma özelliğine sahip modeller, eğitim sırasında öğrenme süreçleri için aktif olarak en alakalı ve çeşitli verileri arayarak eğitim aşamasını daha sağlam ve verimli hale getirir.

Meta, önceki trafo tabanlı yöntemlerden beş kat daha az hesaplama ve daha az eğitim verisi gerektirdiğini ve bu da onu mevcut difüzyon tabanlı modeller kadar verimli hale getirdiğini iddia ediyor.

reklam

Çok görevli bir bukalemun

Büyük ölçekli çoklu görev yönerge ayarı sayesinde CM3leon, metin kılavuzlu görüntü oluşturma ve düzenleme, metinden görüntüye oluşturma, metin kılavuzlu görüntü düzenleme, altyazı oluşturma, görsel soru yanıtlama ve yapı kılavuzlu dahil olmak üzere çeşitli görevleri gerçekleştirebilir. resim düzenleme.

“Talimat ayarı”, modelin metin formatında verilen talimatları takip etmek üzere eğitildiği anlamına gelir. Örneğin, “okyanus üzerinde bir gün batımı görüntüsünü tanımlayın” gibi bir talimat verebilirsiniz ve yapay zeka modeli bu talimata dayalı bir açıklama oluşturur. Model, yukarıda belirtilen çok çeşitli görevlerde bu tür örnekler üzerinde eğitilmiştir.

(1) Sahra Çölü’nde hasır şapka ve neon güneş gözlüğü takan küçük bir kaktüs. (2) Bir insan elinin yakın çekim fotoğrafı, el modeli. Yüksek kalite. (3) Bir samuray kılıcıyla destansı bir savaşa hazırlanan bir Anime’deki rakun ana karakteri. Savaş duruşu. Fantezi, İllüstrasyon. (4) Fantezi tarzında “1991” yazan bir dur işareti.

Meta ayrıca salt metin modeller için geliştirilen ölçekleme tariflerinin doğrudan tokenizasyon tabanlı görüntü oluşturma modellerine genelleştirildiğini söylüyor; bu da daha fazla veri üzerinde daha uzun süre eğitilmiş daha büyük modellerle daha da iyi sonuçlar anlamına geliyor. CM3leon’un eğitimi, büyük miktarda veri üzerinde büyük ölçekli bir geri alma ile zenginleştirilmiş bir ön eğitim aşamasını içeriyordu ve ardından, çoklu görev yeteneklerini elde etmek için talimatlarla birlikte denetimli bir ince ayar (SFT) aşamasından geçiyor.

Görüntü oluşturma karşılaştırmasında (sıfır vuruşlu MS-COCO), CM3leon, son teknoloji ürünü yeni bir sonuç olan ve Google’ın Parti görüntü modelini geride bırakan 4,88’lik bir Fréchet Başlangıç ​​Mesafesi (FID) puanına ulaşır.

Daha fazla tutarlılık, daha fazla lisanslama, daha fazla metaverse

Meta’ya göre CM3leon, karmaşık giriş talimatlarını bile daha iyi takip eden tutarlı görüntüler üretmede çok başarılı. Küresel şekilleri ve yerel ayrıntıları daha iyi kurtarabilir, istemde göründükleri gibi metin veya sayılar oluşturabilir ve daha önce Instruct Pix2Pix gibi özel modeller gerektiren metin kılavuzlu görüntü düzenleme gibi görevleri çözebilir.

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top