Language models defy ‘Stochastic Parrot’ narrative, display semantic learning



özet
Özet

GPT-4 gibi dil modelleri anlamı öğrenebilir mi, yoksa stokastik papağanlar mı? Yeni bir araştırma makalesi, modellerin bazı eleştirmenlerin onlara verdiğinden daha fazlasını öğrendiğini gösteriyor.

Massachusetts Institute of Technology’deki (MIT) CSAIL’deki araştırmacılar, yeni bir çalışmada, dil modellerinin yalnızca bir metindeki veya bu durumda bir programdaki bir sonraki belirteci tahmin etmek için eğitilmiş olsalar bile anlamı öğrenebileceğini gösteriyor. Bu, büyük dil modellerinin anlam veya anlambilim hakkında değil, sözdizimi hakkında yalnızca yüzeysel istatistikleri öğrenen “rastlantısal papağanlar” olduğu görüşüyle ​​çelişir.

Ekip, bu çalışmayla iki hipotezi çürütmeyi amaçlıyor:

Yalnızca metin üzerinde bir sonraki belirteç tahminini gerçekleştirmek için eğitilmiş LM’ler

  • (H1) temel olarak eğitim korporalarında yüzey seviyesindeki istatistiksel korelasyonları tekrarlamakla sınırlıdır; Ve
  • (H2) tükettikleri ve ürettikleri metne anlam veremezler.

Sinir ağlarında stokastik kod papağanı mı yoksa semantik mi?

Ekip, anlam kavramını net bir şekilde tanımlamak için program sentezini kullandı çünkü “bir programın anlamı (ve doğruluğu) tam olarak programlama dilinin semantiği tarafından verilir.” Spesifik olarak, engellerin olduğu bir ızgara dünyasında dijital bir “robot”ta gezinmek için daha çok eğitim amaçlı geliştirilen Karel programlama dilini kullanarak bir dil modeli eğittiler. Transformer modellerinde olduğu gibi, yapay zeka sistemi, aynı adı taşıyan robot Karel’e ızgara dünyalarında başarılı bir şekilde rehberlik edecek doğru program kodundaki bir sonraki belirteci tahmin etmeyi basitçe öğrenir.

reklam

Eğitimden sonra ekip, bir Keras programı çalıştırılırken dil modelinin dahili durumlarının haritasını çıkarmak için doğrusal bir araştırma kullandı. Ekip, Keras’ın anlamını öğrenmek için değil, yalnızca belirteçleri tahmin etmek için eğitilmiş olmasına rağmen, modelden programın mevcut ve gelecekteki durumlarının soyutlamalarını çıkarabileceğini buldu. Bu semantik temsiller, dil modelinin doğru programlar üretme yeteneğine paralel olarak gelişti.

Ekip, bu semantik içeriğin doğrusal araştırmadan kaynaklanmadığından emin olmak için dil modelindeki dahili durumları seçerek değiştirdi. Ekip, sondanın doğruluğu ile modelin bir program oluşturma yeteneği arasında güçlü, istatistiksel olarak anlamlı bir ilişki olduğunu gösterebildi.

Ekip her iki hipotezin de çürütüldüğünü görüyor ve yalnız değil

Dil modeli aynı zamanda eğitim setindeki programlardan ortalama olarak daha kısa programlar yazmayı da öğrenir. Bu, derler ki, dil modelinin çıktısı, eğitim setinin dağılımından anlamsal olarak anlamlı bir şekilde sapabilir. Ek olarak, modelin doğru programları sentezleme becerisi gelişmiş olsa bile, modelin şaşkınlığı (bir sonraki belirteci tahmin etmedeki belirsizliğin bir ölçüsü), eğitim setindeki programlar için yüksek kaldı. Araştırmacılara göre bu, hipotezi (H1) reddediyor.

Genel olarak, sonuçlar “LM temsillerinin aslında orijinal anlambilimle uyumlu olduğunu gösterir (yalnızca bazı sözcüksel ve sözdizimsel içeriği kodlamak yerine). Bu hipotezi reddeder (H2), ekip yazar.

“Anlambilimin metinden öğrenilip öğrenilemeyeceği sorusu son yıllarda büyük ilgi topladı. Bu makale, şu pozisyon için ampirik destek sunuyor: anlam biçimden öğrenilebilir” Makale belirtiyor. Yöntem, gelecekte dil modellerindeki anlamı daha fazla araştırmak için de kullanılabilir – hem pratik hem de felsefi öneme sahip bir soru, diye yazıyorlar.

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top