Yann LeCun is betting everything on a new AI paradigm



özet
Özet

I-JEPA, Metas AI şefi Yann LeCun’un AI’nın geleceğini nasıl gördüğünü gösteriyor – ve her şey ImageNet kıyaslamalarıyla yeniden başlıyor.

Bir yıldan kısa bir süre önce, AI öncüsü ve Meta AI şefi Yann LeCun, halüsinasyonlar ve mantıksal zayıflıklar gibi mevcut sistemlerin sınırlamalarının üstesinden gelmek için tasarlanmış yeni bir AI mimarisini açıkladı. Meta AI (FAIR), McGill Üniversitesi, Mila, Quebec AI Enstitüsü ve New York Üniversitesi’nden bir ekip olan I-JEPA ile “Ortak Yerleştirme Tahmini Mimarisini” takip eden ilk AI modellerinden birini sunuyor. Araştırmacılar arasında ilk yazar Mahmoud Assran ve Yann LeCun yer alıyor.

Vision Transformer tabanlı model, lineer sınıflandırmadan nesne sayımı ve derinlik tahminine kadar değişen ölçütlerde yüksek performans elde eder ve yaygın olarak kullanılan diğer bilgisayarla görme modellerinden hesaplama açısından daha verimlidir.

I-JEPA soyut temsillerle öğrenir

I-JEPA, bir görüntünün görünmeyen kısımlarının ayrıntılarını tahmin etmek için kendi kendini denetleyen bir şekilde eğitilmiştir. Bu, I-JEPA’nın içeriğini tahmin etmesi gereken görüntülerin büyük bloklarını basitçe maskeleyerek yapılır. Diğer yöntemler genellikle çok daha kapsamlı eğitim verilerine dayanır.

reklam

I-JEPA’nın nesnelerin anlamsal, üst düzey temsillerini öğrenmesini ve piksel veya belirteç düzeyinde çalışmamasını sağlamak için Meta, tahmin ile orijinal görüntü arasına bir tür filtre yerleştirir.

Bir görüntünün görünür kısımlarını işleyen bir bağlam kodlayıcıya ve görüntüdeki bir hedef bloğun temsilini tahmin etmek için bağlam kodlayıcının çıktısını kullanan bir öngörücüye ek olarak, I-JEPA bir hedef kodlayıcıdan oluşur. Bu hedef kodlayıcı, bir eğitim sinyali görevi gören tam görüntü ile öngörücü arasında yer alır.

Resim: Meta

Böylece, I-JEPA’nın tahmini piksel düzeyinde değil, görüntü hedef kodlayıcı tarafından işlendiği için soyut temsiller düzeyinde yapılır. Meta bununla, modelin “gereksiz piksel düzeyinde ayrıntıların potansiyel olarak ortadan kaldırıldığı soyut tahmin hedefleri” kullandığını ve böylece modelin daha anlamsal özellikler öğrenmesine yol açtığını söylüyor.

I-JEPA, ImageNet’te parlıyor

Öğrenilen temsiller daha sonra farklı görevler için yeniden kullanılabilir ve I-JEPA’nın, sınıf başına yalnızca 12 etiketli örnekle ImageNet’te harika sonuçlar elde etmesine olanak tanır. 632 milyon parametreli model, 16 Nvidia A100 GPU’da 72 saatten daha kısa sürede eğitildi. Diğer yöntemler tipik olarak iki ila on kat daha fazla GPU saati gerektirir ve aynı miktarda veri üzerinde eğitildiklerinde daha kötü hata oranlarına ulaşır.

I-JEPA, nispeten düşük hesaplama yükü ile ImageNet’te yüksek puanlar elde eder. | Resim: Meta

Bir deneyde ekip, I-JEPA’nın temsillerini görselleştirmek için üretken bir yapay zeka modeli kullanıyor ve modelin beklendiği gibi öğrendiğini gösteriyor.

Öneri

I-JEPA meta blogu. Model ve kod şu adreste mevcuttur: GitHub.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top