Yeni bir yöntem, büyük dil modellerinin doğruluğunu önemli ölçüde artırır ve modellerin ortaya koyduklarından daha fazlasını bildiğini gösterir.
Harvard Üniversitesi’ndeki araştırmacılar, büyük dil modellerinin doğruluğunu veya olgusallığını iyileştirmek ve GitHub’da “Dürüst LLaMA” olarak adlandırılan bir “Dürüst LLaMA” oluşturmak için Çıkarım Zamanında Müdahale (ITI) adlı bir teknik geliştirdiler. Çalışma, ChatGPT ve diğer sohbet robotlarının bazı bağlamlarda doğru bilgi sağlarken diğerlerinde halüsinasyon görmesinden kaynaklanmaktadır – bu nedenle gerçekler oradadır, ancak bazen modelin çıkarımında kaybolur.
Ekip, TruthfulQA kıyaslamasının bölümlerini kullanarak gerçeklik testlerinde yüksek doğruluğa sahip sinir ağındaki bölümleri belirlemek için doğrusal araştırmaları kullanır. Ekip, dönüştürücünün bazı dikkat kafalarındaki bu bölümleri belirledikten sonra, ITI, metin oluşturma sırasında model aktivasyonlarını bu dikkat kafaları boyunca kaydırır.
ITI, Alpaka’nın doğruluğunu önemli ölçüde artırır
Araştırmacılar, ITI ile, TruthfulQA kıyaslamasındaki açık kaynaklı Alpaka modelinin doğruluğunun, Vicuna ve LLaMA için benzer sıçramalarla yüzde 32,5’ten yüzde 65,1’e çıktığını gösteriyor. Bununla birlikte, model aktivasyonlarında çok büyük bir kaymanın olumsuz sonuçları da olabilir: Model yanıtları reddeder ve bu nedenle daha az kullanışlı hale gelir. Gerçeklik ve yardımseverlik arasındaki bu değiş tokuş, ITI’nin müdahale gücü ayarlanarak dengelenebilir.
reklam

ITI’nin, insan geri bildiriminin de gerçeği artırabileceği takviyeli öğrenme ile bir miktar örtüşmesi vardır. Bununla birlikte, model insan beklentilerini karşılamaya çalıştığı için RLHF yanıltıcı davranışları da teşvik edebilir. Araştırmacılar, ITI’nin bu sorunu olmadığını ve ayrıca minimal invaziv olduğunu, çok az eğitim verisi ve hesaplama gücü gerektirdiğini söylüyor.
Büyük dil modelleri üzerine yapılan çalışmalar, “gerçeğin” daha iyi anlaşılmasına yol açabilir
Ekip şimdi, yöntemin gerçek dünyadaki bir sohbet ortamındaki diğer veri kümelerine nasıl genelleştirilebileceğini anlamak ve gerçeklik ile yardımseverlik arasındaki değiş tokuşa dair daha derin bir anlayış geliştirmek istiyor. Ek olarak, yöntemi daha ölçeklenebilir hale getirmek için gelecekte manuel olarak tanımlanan ağ segmentlerini kendi kendini denetleyen bir şekilde öğrenmek mümkün olabilir.
Son olarak araştırmacılar, konunun daha geniş bir katkı sağlayabileceğine de dikkat çekiyor: “Bilimsel bir bakış açısıyla, ‘gerçek’ gibi karmaşık niteliklerin temsillerinin çok boyutlu geometrisini daha iyi anlamak ilginç olurdu.”
Kod ve daha fazla bilgi şu adreste mevcuttur: GitHub.