Meta’nın en son görüntü modeli CM3leon, hem metni hem de görüntüleri anlayabilir ve oluşturabilir. Metin açıklamalarından resimler oluşturabilir ve resimlere dayalı metin oluşturabilir, bu da onu birçok görev için kullanışlı hale getirir.
CM3leon (“bukalemun” olarak telaffuz edilir), hem metinden görüntüye hem de görüntüden metne oluşturma yeteneğine sahip tek tabanlı bir modeldir. Hem metin hem de resim girebilen ve oluşturabilen salt metin dil modellerinden uyarlanmış bir tarifle eğitilmiş ilk çok modlu modeldir.
CM3Leon’un mimarisi, metin tabanlı modellere benzer şekilde, yalnızca kod çözücüye dayalı belirteç tabanlı bir dönüştürücü ağı kullanır. Önceki çalışma (RA-CM3) üzerine kuruludur ve eğitim sırasında “alma büyütme” adı verilen bir şeyle harici bir veritabanı kullanır. Diğer modeller yalnızca kendilerine beslenen ham verilerden öğrenebilirken, alma artırma özelliğine sahip modeller, eğitim sırasında öğrenme süreçleri için aktif olarak en alakalı ve çeşitli verileri arayarak eğitim aşamasını daha sağlam ve verimli hale getirir.
Meta, önceki trafo tabanlı yöntemlerden beş kat daha az hesaplama ve daha az eğitim verisi gerektirdiğini ve bu da onu mevcut difüzyon tabanlı modeller kadar verimli hale getirdiğini iddia ediyor.
reklam
Çok görevli bir bukalemun
Büyük ölçekli çoklu görev yönerge ayarı sayesinde CM3leon, metin kılavuzlu görüntü oluşturma ve düzenleme, metinden görüntüye oluşturma, metin kılavuzlu görüntü düzenleme, altyazı oluşturma, görsel soru yanıtlama ve yapı kılavuzlu dahil olmak üzere çeşitli görevleri gerçekleştirebilir. resim düzenleme.
“Talimat ayarı”, modelin metin formatında verilen talimatları takip etmek üzere eğitildiği anlamına gelir. Örneğin, “okyanus üzerinde bir gün batımı görüntüsünü tanımlayın” gibi bir talimat verebilirsiniz ve yapay zeka modeli bu talimata dayalı bir açıklama oluşturur. Model, yukarıda belirtilen çok çeşitli görevlerde bu tür örnekler üzerinde eğitilmiştir.

Meta ayrıca salt metin modeller için geliştirilen ölçekleme tariflerinin doğrudan tokenizasyon tabanlı görüntü oluşturma modellerine genelleştirildiğini söylüyor; bu da daha fazla veri üzerinde daha uzun süre eğitilmiş daha büyük modellerle daha da iyi sonuçlar anlamına geliyor. CM3leon’un eğitimi, büyük miktarda veri üzerinde büyük ölçekli bir geri alma ile zenginleştirilmiş bir ön eğitim aşamasını içeriyordu ve ardından, çoklu görev yeteneklerini elde etmek için talimatlarla birlikte denetimli bir ince ayar (SFT) aşamasından geçiyor.
Görüntü oluşturma karşılaştırmasında (sıfır vuruşlu MS-COCO), CM3leon, son teknoloji ürünü yeni bir sonuç olan ve Google’ın Parti görüntü modelini geride bırakan 4,88’lik bir Fréchet Başlangıç Mesafesi (FID) puanına ulaşır.
Daha fazla tutarlılık, daha fazla lisanslama, daha fazla metaverse
Meta’ya göre CM3leon, karmaşık giriş talimatlarını bile daha iyi takip eden tutarlı görüntüler üretmede çok başarılı. Küresel şekilleri ve yerel ayrıntıları daha iyi kurtarabilir, istemde göründükleri gibi metin veya sayılar oluşturabilir ve daha önce Instruct Pix2Pix gibi özel modeller gerektiren metin kılavuzlu görüntü düzenleme gibi görevleri çözebilir.
Öneri

Ayrıca görüntüler için ayrıntılı altyazılar yazabilir, isterseniz ters komut verebilir, bu daha sonra daha fazla görüntü oluşturma veya düzenleme veya sentetik eğitim veri kümeleri oluşturmak için kullanılabilir. Meta, CM3leon’un daha az metinle (3 milyar metin belirteci) eğitilmiş olmasına rağmen, metin görevlerinde Flamingo ve OpenFlamingo ile eşleştiğini veya onları yendiğini söylüyor.

En önemlisi, Meta, modelin “yalnızca lisanslı resim ve metin verilerini içeren yeni bir büyük Shutterstock veri kümesi” üzerinde eğitildiğini, ancak diğer modellere kıyasla yine de çok rekabetçi olduğunu söylüyor.
“Sonuç olarak, performanstan ödün vermeden görüntü sahipliği ve ilişkilendirmeyle ilgili endişeleri önleyebiliriz” diye yazıyorlar.
Meta’ya göre CM3leon, çok modlu dil modellerinin önünü açan, aslına uygun görüntü oluşturma ve anlamaya yönelik bir adımdır. Ve CM3leon gibi modellerin “eninde sonunda yaratıcılığı artırmaya ve metaverse’te daha iyi uygulamalara yardımcı olabileceğini” belirterek metaverse’ye hâlâ inanıyor.