ChatGPT 4.096 token, LongNet ise bir milyar token okuyabilir. Bu, Web’in tüm bölümlerini aynı anda işleyebilen Transformer modellerini etkinleştirebilir.
Transformatör modellerinin dizi uzunluğu, eğitimde ve özellikle dağıtımda önemli bir rol oynar: Daha büyük dizi uzunlukları, örneğin bir dil modelinin daha fazla metin işleyip oluşturabileceği veya bir görüntü dönüştürücünün daha fazla bilgi yakalayabileceği geniş bir bağlam penceresi sağlar. bir şekil.
Dizi uzunluğunu ölçeklendirmeyle ilgili önemli bir sorun, standart Transformer mimarisinde dizi uzunluğu ile gerekli bilgi işlem arasındaki ilişkinin ikinci dereceden olması ve bu nedenle gerekli hesaplamanın hızla patlamasıdır.
LongNet, ChatGPT’den 250.000 kat daha fazla jeton işler
Bununla birlikte, çeşitli optimizasyonlarla daha büyük dizi uzunlukları elde edilebilir: OpenAI’nin ChatGPT’si, yaklaşık 3.000 kelime olan 4.096 jetonluk bir bağlam penceresine sahiptir, ancak yaklaşık 8.000 jeton ve en büyük GPT-4 içeren GPT-3.5-turbo varyantları vardır. modelin yaklaşık 32.000 jetonu var. Claude ile Anthropic, yaklaşık 100.000 jetonlu ticari olarak mevcut bir model sunuyor.
reklam
LongNet ile Microsoft şimdi doğrusal olarak ölçeklenen ve ekibe göre ChatGPT’den 250.000 kat daha uzun olan bir milyar jetona ölçeklenebilen bir yöntem gösteriyor. Bu yaklaşık 750.000.000 kelime veya 2.000.000 sayfadır.
Ekip, bu sıçramayı “genişletilmiş dikkat” adını verdikleri uyarlanmış bir dikkat mekanizması aracılığıyla gerçekleştiriyor. Burada, belirteçler arasındaki mesafe büyüdükçe dikkat tahsisi katlanarak azalır, böylece ağ, yakındaki belirteçler arasındaki ilişkilere standart bir dikkat mekanizması kadar yakından bakar, ancak birbirinden daha uzak olan belirteçlere daha kaba dikkat kalıpları uygular.
Web boyutlu veri kümelerinin işlenmesini sağlamak için LongNet
Ekip, bir testte LongNet’i kullanarak 32.000 jetona kadar konuşma oluşturma modeli eğitiyor ve bunu klasik transformatör tabanlı yaklaşımlarla karşılaştırıyor. Ekibe göre LongNet, klasik trafo modellerinin bilinen ölçeklendirme yasalarını gösteriyor; örneğin, model büyüdükçe şaşkınlığı azalır.
Ekip, gelecekte LongNet’in web boyutunda veri kümelerinin işlenmesini sağlayabileceğini söyledi. Geniş bağlam penceresi ayrıca, modeller için insanlarla veya dünyayla etkileşimleriyle ilgili olan geniş bir bellek ve alıcı alan sağlar. Daha geniş bir bağlam penceresi, modellerin eğitim verilerinde yararlanabileceği daha karmaşık nedensellik ve akıl yürütme yolları da içerir, bu da modellerin daha iyi genelleştirilmesine yol açabilir. Ekip, LongNet’in aynı zamanda bağlam içi öğrenmenin sınırlarını keşfetmeyi de mümkün kıldığını, “son derece uzun bir bağlam, modellerin yıkıcı unutkanlığı hafifletmesine yardımcı olabileceğinden, çok aşamalı öğrenme için bir paradigma değişikliği olma potansiyeline sahip” dedi.
LongNet şimdilik sadece bir konsept kanıtı
LongNet’in bu vaatleri gerçekten yerine getirip getiremeyeceği belirsizdir; kağıt, GPT-4 32k gibi modern dil modelleriyle karşılaştırmalardan ve doğruluk veya insan değerlendirmeleri gibi gerçekten anlamlı ölçütlerden yoksundur. Bu açıdan LongNet, başlangıçta bir fizibilite çalışmasıdır; bu tür devasa dizi uzunluklarının gerçek avantajlar getirip getirmediği, şimdi takip çalışmasında gösterilmelidir.
Öneri
Ekip, gelecekte LongNet’i çok modlu büyük dil modelleri veya genomik veri modelleme gibi diğer uygulamalar için kullanmayı planlıyor.