Open-source language models are no match for GPT-4 and co, study says



özet
Özet

Açık kaynak dil modellerinin ilerlemesi tartışılmaz. Ancak OpenAI, Google ve diğerlerinden çok daha pahalı, yoğun şekilde eğitilmiş dil modelleriyle gerçekten rekabet edebilirler mi?

Kulağa gerçek olamayacak kadar iyi geliyor: Alpaca Formula kullanılarak eğitilen açık kaynaklı dil modelleri, çok az eğitim çabası ve neredeyse sıfır maliyetle ChatGPT benzeri seviyelere ulaşarak son zamanlarda yeni ölçütler belirledi.

Alpaka Formülü, geliştiricilerin Meta tarafından yarı sızdırılmış ve yarı yayınlanmış dil modeli LLaMA’da ince ayar yapmak için ChatGPT ile oluşturulan eğitim verilerini kullandıkları anlamına gelir. Bu verileri kullanan LLaMA modeli, ChatGPT’ye benzer çıktıları çok kısa sürede ve çok az hesaplama çabasıyla üretmeyi öğrenir.

Hatta bir Google mühendisi, açık kaynak modellerin büyüyen yetenekleri hakkında dahili olarak alarm verdi. Açık kaynak sahnesinin Google gibi ticari modelcileri geride bırakabileceğini öne sürdü.

reklam

Ancak Berkeley Üniversitesi’ndeki araştırmacılar yakın tarihli bir çalışmada farklı bir sonuca vardılar: Alpaka formülünü LLaMA ve GPT-2’den bazı temel modellere uyguladılar, ardından bu sonuçları insanlar tarafından değerlendirip GPT-4 tarafından otomatik hale getirdiler.

Başlangıçta, kendilerinden önceki geliştiricilerle aynı sonuca vardılar: Araştırmacıların “taklit modeller” olarak adlandırdığı, talimatlarla rafine edilen modellerin performansı, temel modelin performansını çok aştı ve ChatGPT ile aynı seviyedeydi.

Başlangıçta taklit modellerin temel modellere göre ne kadar geliştiğine şaşırdık: talimatları takip etmede çok daha iyiler ve çıktıları ChatGPT’lerinkine benzer görünüyor. Bu, en iyi taklit modelimizin çıktılarının ChatGPT ile rekabet edebilir olarak derecelendirildiği hem insan hem de GPT-4 değerlendirmeleriyle daha da desteklendi.

kağıttan

Model taklidinin “yanlış vaadi” veya: kısayol yok

Bununla birlikte, “daha hedefli otomatik değerlendirmeler”, taklit modellerin aslında yalnızca taklit verilerini gördükleri görevlerde iyi performans gösterdiğini gösterdi. Diğer tüm alanlarda, GPT-4 ve co ile net bir performans farkı kaldı. çünkü bu temel modeller, yeteneklerinin çoğunu ince ayar sırasında değil, kapsamlı ön eğitim sırasında kazanır.

Taklit modeller ChatGPT’nin kendine güvenen stilini kopyalamaya devam ettiğinden, gerçekliğini ve akla yatkınlığını değil, insan değerlendiriciler bu tutarsızlığı gözden kaçırabilir. Basitçe söylemek gerekirse, taklit modeller içerikten çok stili öğrenir ve içeriğe aşina olmayan insanlar bunu fark etmez.

Taklit modelin yanıtı makul görünüyor ancak hatalarla dolu (metin kırmızıyla vurgulanmıştır). İnsan yapay zeka değerlendiricileri, stil doğru olduğu sürece bu gerçeklik eksikliğini göz ardı edebilir. | Resim: Gudibande ve ark.

Araştırmacılar, AI içeriğini genellikle uzmanlık olmadan ve kısa bir süre içinde değerlendiren bu sözde kalabalık çalışanların kolayca kandırıldığını öne sürüyor. “İnsan değerlendirmesinin geleceği belirsizliğini koruyor” diye yazıyorlar. GPT-4, bazı alanlarda insan eleştirmenleri taklit edebilir, ancak insan benzeri bilişsel önyargılar gösterdi. Daha fazla araştırmaya ihtiyaç olduğunu söylüyorlar.

Öneri

Meta’nın yapay zeka şefi Yann LeCun, gidilecek yolun bu olduğuna inanıyor“insan geri bildiriminin *kitle kaynaklı, Wikipeda tarzı olması gerektiğini” söyleyerek, açık kaynaklı temel modellerin “insan bilgisinin ortak deposu” gibi bir şey haline gelebilmesi için.



Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top