I-JEPA, Metas AI şefi Yann LeCun’un AI’nın geleceğini nasıl gördüğünü gösteriyor – ve her şey ImageNet kıyaslamalarıyla yeniden başlıyor.
Bir yıldan kısa bir süre önce, AI öncüsü ve Meta AI şefi Yann LeCun, halüsinasyonlar ve mantıksal zayıflıklar gibi mevcut sistemlerin sınırlamalarının üstesinden gelmek için tasarlanmış yeni bir AI mimarisini açıkladı. Meta AI (FAIR), McGill Üniversitesi, Mila, Quebec AI Enstitüsü ve New York Üniversitesi’nden bir ekip olan I-JEPA ile “Ortak Yerleştirme Tahmini Mimarisini” takip eden ilk AI modellerinden birini sunuyor. Araştırmacılar arasında ilk yazar Mahmoud Assran ve Yann LeCun yer alıyor.
Vision Transformer tabanlı model, lineer sınıflandırmadan nesne sayımı ve derinlik tahminine kadar değişen ölçütlerde yüksek performans elde eder ve yaygın olarak kullanılan diğer bilgisayarla görme modellerinden hesaplama açısından daha verimlidir.
I-JEPA soyut temsillerle öğrenir
I-JEPA, bir görüntünün görünmeyen kısımlarının ayrıntılarını tahmin etmek için kendi kendini denetleyen bir şekilde eğitilmiştir. Bu, I-JEPA’nın içeriğini tahmin etmesi gereken görüntülerin büyük bloklarını basitçe maskeleyerek yapılır. Diğer yöntemler genellikle çok daha kapsamlı eğitim verilerine dayanır.
reklam
I-JEPA’nın nesnelerin anlamsal, üst düzey temsillerini öğrenmesini ve piksel veya belirteç düzeyinde çalışmamasını sağlamak için Meta, tahmin ile orijinal görüntü arasına bir tür filtre yerleştirir.
Bir görüntünün görünür kısımlarını işleyen bir bağlam kodlayıcıya ve görüntüdeki bir hedef bloğun temsilini tahmin etmek için bağlam kodlayıcının çıktısını kullanan bir öngörücüye ek olarak, I-JEPA bir hedef kodlayıcıdan oluşur. Bu hedef kodlayıcı, bir eğitim sinyali görevi gören tam görüntü ile öngörücü arasında yer alır.

Böylece, I-JEPA’nın tahmini piksel düzeyinde değil, görüntü hedef kodlayıcı tarafından işlendiği için soyut temsiller düzeyinde yapılır. Meta bununla, modelin “gereksiz piksel düzeyinde ayrıntıların potansiyel olarak ortadan kaldırıldığı soyut tahmin hedefleri” kullandığını ve böylece modelin daha anlamsal özellikler öğrenmesine yol açtığını söylüyor.
I-JEPA, ImageNet’te parlıyor
Öğrenilen temsiller daha sonra farklı görevler için yeniden kullanılabilir ve I-JEPA’nın, sınıf başına yalnızca 12 etiketli örnekle ImageNet’te harika sonuçlar elde etmesine olanak tanır. 632 milyon parametreli model, 16 Nvidia A100 GPU’da 72 saatten daha kısa sürede eğitildi. Diğer yöntemler tipik olarak iki ila on kat daha fazla GPU saati gerektirir ve aynı miktarda veri üzerinde eğitildiklerinde daha kötü hata oranlarına ulaşır.

Bir deneyde ekip, I-JEPA’nın temsillerini görselleştirmek için üretken bir yapay zeka modeli kullanıyor ve modelin beklendiği gibi öğrendiğini gösteriyor.
Öneri

I-JEPA, temel unsuru tahmin ve eğitim verileri arasında bir tür filtre olan ve dolayısıyla soyut gösterimlere olanak tanıyan, önerilen mimari için bir kavram kanıtıdır. LeCun’a göre, bu tür soyutlamalar, yapay zeka modellerinin insan öğrenimine daha yakından benzemesine, mantıksal çıkarımlar yapmasına ve üretken yapay zekadaki halüsinasyon problemini çözmesine izin verebilir.
JEPA dünya modellerini etkinleştirebilir
JEPA modellerinin genel amacı, nesneleri tanımak veya metin oluşturmak değildir – LeCun, otonom yapay zekanın bir parçası olarak işlev gören kapsamlı dünya modellerini etkinleştirmek istiyor. Bunu başarmak için, daha düşük modüllerden gelen tahminlere dayalı olarak daha yüksek bir soyutlama seviyesinde tahminler sağlamak için JEPA’yı hiyerarşik olarak istiflemeyi önerir.
“Daha zengin yöntemlerden daha genel dünya modellerini öğrenmek için JEPA’ları ilerletmek özellikle ilginç olacaktır; metinsel istemler,” dedi Meta.
Bu nedenle JEPA, görüntü-metin çiftleri veya video verileri gibi diğer alanlara uygulanacaktır. Blog, “Bu, dünyanın genel bir modelini öğrenmek için kendi kendini denetleyen yöntemleri uygulamaya ve ölçeklendirmeye yönelik önemli bir adımdır” diyor.
LeCun, Northeastern Üniversitesi’nin Deneyimsel Yapay Zeka Enstitüsü’ndeki bir konuşmada JEPA’nın motivasyonu, gelişimi ve işleyişi hakkında daha fazla bilgi sağlıyor.
Daha fazla bilgi şu adreste mevcuttur: I-JEPA meta blogu. Model ve kod şu adreste mevcuttur: GitHub.