Araştırmacılar, 256.000 belirteç veya daha fazlasına kadar uzun bağlamları işleyebilen büyük bir dil modeli olan LongLLaMA’nın bir ön izlemesini yayınladı. Açık kaynaklı OpenLLaMA üzerine inşa edilmiş ve Odaklanmış Dönüştürücü (FoT) yöntemi kullanılarak ince ayar yapılmış, bazı dikkat katmanlarının bağlam uzunluklarını uzatmak için anahtar-değer çiftlerinden oluşan bir önbelleğe erişmesine izin verir.
Araştırmacılara göre, model, uzun bağlamlar gerektirmeyen görevlerde performansı koruyor ve daha kısa bağlamlı LLaMA uygulamaları için bir yedek olarak kullanılabilir. Ekip, Hugging Face’te daha uzun bağlamları destekleyen çıkarım koduyla Apache 2.0 lisansı altında daha küçük 3B varyantını piyasaya sürdü. LongLLaMA hakkında daha fazla bilgi ve örnek GitHub deposunda bulunabilir.