Meta, trafo modellerinin performansını ve verimliliğini yeni bir düzeye taşıyabilecek bir yöntem olan MegaByte’ı sunar.
Şu anda, tüm Transformer modelleri belirteçler kullanıyor. Bu algoritmalar, kelimeleri, görüntüleri, sesleri veya diğer girdileri, daha sonra GPT-4 veya diğer modeller tarafından bir dizi sayı olarak işlenebilen belirteçlere dönüştürür. Dil modelleri için, kısa sözcükler bir simgeye dönüştürülür ve daha uzun sözcükler birden çok simgeye dönüştürülür.

Bununla birlikte, bu tür belirteçlerin kullanımının bazı dezavantajları vardır, örneğin, model mimarisine bağlı olarak, bunların işlenmesi hesaplama açısından yoğundur, yeni modalitelerin entegrasyonu zordur ve genellikle harf düzeyinde çalışmazlar. Bu, tekrar tekrar dil modellerinde “mayonez” kelimesindeki “n” sayısını sayamama gibi ince yetenek boşluklarına yol açar.
Bu ve diğer faktörler, artık 32.000 ila 100.000 token işleyebilen GPT-4 veya Claude’a sahip modeller olmasına rağmen, kitapların tamamı, videolar veya podcast’ler gibi daha büyük girdilerin işlenmesini de zorlaştırıyor.
reklam
Metas MegaByte bayt düzeyinde çalışır
MegaByte ile Meta AI’deki araştırmacılar artık klasik belirteçleri ortadan kaldıran ve bunun yerine metin, resim ve sesi bayt düzeyinde işleyen bir yöntem gösteriyor. MegaByte önce metin dizilerini veya diğer modaliteleri bir belirteç oluşturucuya benzer şekilde ayrı yamalara ayırır.
Ardından, bir yama gömücü, bir harf gibi her baytın gömmelerini kayıpsız bir şekilde birleştirerek bir yamayı kodlar. Büyük bir otoregresif transformatör olan global bir modül, bu yama gösterimlerini girdi olarak alır ve çıkarır ve iletir.
Her bölüm daha sonra bir yama içindeki baytları tahmin eden yerel bir otoregresif dönüştürücü modeli tarafından işlenir.

Meta’ya göre mimari, aynı hesaplama maliyeti için daha yüksek derecede hesaplama paralelliği, daha büyük ve daha güçlü modeller ve transformatörlerin kendi kendine dikkat mekanizmasının maliyetinde önemli bir azalma sağlar.
Ekip, metin, görüntü ve ses testlerinde MegaByte’ı basit bir kod çözücü-dönüştürücü mimarisi veya Deepmind’in PerceiverAR’ı gibi diğer modellerle karşılaştırır ve MegaByte’ın daha verimli olduğunu ve yaklaşık bir milyon baytlık dizileri işleyebileceğini gösterir.
Öneri
OpenAI’den Andrej Karpathy, Meta’nın MegaByte’ını “umut verici” olarak nitelendiriyor
OpenAI’den Andrej Karpathy, Meta’nın MegaByte umut verici çalışmasını aradı. Karpathy, Twitter’da “Herkes LLM’lerde tokenleştirmeyi bir kenara bırakabileceğimizi ummalı” diye yazdı.
Umut verici. Herkes LLM’lerde tokenleştirmeyi bir kenara bırakabileceğimizi ummalı. Bunu safça yapmak çok uzun (bayt düzeyinde) diziler oluşturur, bu nedenle şeytan ayrıntılarda gizlidir.
Belirteçleştirme, LLM’lerin aslında tamamen uçtan uca olmadığı anlamına gelir. Tamamen ayrı bir sahne var ve…
— Andrej Karpathy (@karpathy) 15 Mayıs 2023
Meta AI ekibi ayrıca kendi sonuçlarını, MegaByte’ın Transformer modellerinde klasik belirteç oluşturucuların yerini alma potansiyeline sahip olabileceğinin bir göstergesi olarak görüyor.
MEGABYTE, bir dizi görev ve modalitede mevcut bayt düzeyindeki modellerden daha iyi performans göstererek, 1 milyondan fazla simgeden oluşan büyük dizi modellerine izin verir. Ayrıca, alt sözcük modelleriyle rekabetçi dil modelleme sonuçları verir; bu, bayt düzeyindeki modellerin simgeleştirmenin yerini almasına izin verebilir.
Meta
Deneylerin yapıldığı modeller, mevcut dil modellerinin boyutunun çok altında olduğundan, Meta bir sonraki adım olarak çok daha büyük modellere ve veri kümelerine ölçeklendirmeyi planlıyor.