LongLLaMA pushes the limit of context length in open-source LLMs


Araştırmacılar, 256.000 belirteç veya daha fazlasına kadar uzun bağlamları işleyebilen büyük bir dil modeli olan LongLLaMA’nın bir ön izlemesini yayınladı. Açık kaynaklı OpenLLaMA üzerine inşa edilmiş ve Odaklanmış Dönüştürücü (FoT) yöntemi kullanılarak ince ayar yapılmış, bazı dikkat katmanlarının bağlam uzunluklarını uzatmak için anahtar-değer çiftlerinden oluşan bir önbelleğe erişmesine izin verir.

Araştırmacılara göre, model, uzun bağlamlar gerektirmeyen görevlerde performansı koruyor ve daha kısa bağlamlı LLaMA uygulamaları için bir yedek olarak kullanılabilir. Ekip, Hugging Face’te daha uzun bağlamları destekleyen çıkarım koduyla Apache 2.0 lisansı altında daha küçük 3B varyantını piyasaya sürdü. LongLLaMA hakkında daha fazla bilgi ve örnek GitHub deposunda bulunabilir.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top