Metas MegaByte to take LLMs to the next level



özet
Özet

Meta, trafo modellerinin performansını ve verimliliğini yeni bir düzeye taşıyabilecek bir yöntem olan MegaByte’ı sunar.

Şu anda, tüm Transformer modelleri belirteçler kullanıyor. Bu algoritmalar, kelimeleri, görüntüleri, sesleri veya diğer girdileri, daha sonra GPT-4 veya diğer modeller tarafından bir dizi sayı olarak işlenebilen belirteçlere dönüştürür. Dil modelleri için, kısa sözcükler bir simgeye dönüştürülür ve daha uzun sözcükler birden çok simgeye dönüştürülür.

Tiktokenizer, bir belirteç oluşturucunun nasıl çalıştığını görselleştirir. | Resim: tiktokenizer.vercel.app

Bununla birlikte, bu tür belirteçlerin kullanımının bazı dezavantajları vardır, örneğin, model mimarisine bağlı olarak, bunların işlenmesi hesaplama açısından yoğundur, yeni modalitelerin entegrasyonu zordur ve genellikle harf düzeyinde çalışmazlar. Bu, tekrar tekrar dil modellerinde “mayonez” kelimesindeki “n” sayısını sayamama gibi ince yetenek boşluklarına yol açar.

Bu ve diğer faktörler, artık 32.000 ila 100.000 token işleyebilen GPT-4 veya Claude’a sahip modeller olmasına rağmen, kitapların tamamı, videolar veya podcast’ler gibi daha büyük girdilerin işlenmesini de zorlaştırıyor.

reklam

Metas MegaByte bayt düzeyinde çalışır

MegaByte ile Meta AI’deki araştırmacılar artık klasik belirteçleri ortadan kaldıran ve bunun yerine metin, resim ve sesi bayt düzeyinde işleyen bir yöntem gösteriyor. MegaByte önce metin dizilerini veya diğer modaliteleri bir belirteç oluşturucuya benzer şekilde ayrı yamalara ayırır.

Ardından, bir yama gömücü, bir harf gibi her baytın gömmelerini kayıpsız bir şekilde birleştirerek bir yamayı kodlar. Büyük bir otoregresif transformatör olan global bir modül, bu yama gösterimlerini girdi olarak alır ve çıkarır ve iletir.

Her bölüm daha sonra bir yama içindeki baytları tahmin eden yerel bir otoregresif dönüştürücü modeli tarafından işlenir.

Resim: Meta

Meta’ya göre mimari, aynı hesaplama maliyeti için daha yüksek derecede hesaplama paralelliği, daha büyük ve daha güçlü modeller ve transformatörlerin kendi kendine dikkat mekanizmasının maliyetinde önemli bir azalma sağlar.

Ekip, metin, görüntü ve ses testlerinde MegaByte’ı basit bir kod çözücü-dönüştürücü mimarisi veya Deepmind’in PerceiverAR’ı gibi diğer modellerle karşılaştırır ve MegaByte’ın daha verimli olduğunu ve yaklaşık bir milyon baytlık dizileri işleyebileceğini gösterir.

Öneri

Meta AI ekibi ayrıca kendi sonuçlarını, MegaByte’ın Transformer modellerinde klasik belirteç oluşturucuların yerini alma potansiyeline sahip olabileceğinin bir göstergesi olarak görüyor.

MEGABYTE, bir dizi görev ve modalitede mevcut bayt düzeyindeki modellerden daha iyi performans göstererek, 1 milyondan fazla simgeden oluşan büyük dizi modellerine izin verir. Ayrıca, alt sözcük modelleriyle rekabetçi dil modelleme sonuçları verir; bu, bayt düzeyindeki modellerin simgeleştirmenin yerini almasına izin verebilir.

Meta

Deneylerin yapıldığı modeller, mevcut dil modellerinin boyutunun çok altında olduğundan, Meta bir sonraki adım olarak çok daha büyük modellere ve veri kümelerine ölçeklendirmeyi planlıyor.



Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top