Bir araştırma, ChatGPT davranışının Mart ile Haziran arasında nasıl değiştiğini inceliyor ve bazı önemli değişiklikler buluyor – daha iyisi için değil.
Stanford Üniversitesi ve UC Berkeley’den araştırmacılar, GPT-3.5 ve GPT-4’ün eski ve yeni sürümünün performansını dört farklı görevde değerlendirdi:
- Matematik problemlerini çözme
- Zor/tehlikeli soruları yanıtlamak
- kod oluşturma
- görsel düşünme
Çalışma, iki versiyonun performansının ve davranışının bazen önemli ölçüde farklı olduğunu gösteriyor. Örneğin, GPT-4 (Mart 2023) asal sayıları %97,6 doğrulukla tanıyabilirken GPT-4 (Haziran 2023) başarısız olur (%2,4 doğruluk) ve düşünce zinciri istemini yok sayar. GPT-3.5 (Haziran 2023) ise bu görevde GPT-3.5’ten (Mart 2023) önemli ölçüde daha iyi performans gösteriyor.
GPT-4, Haziran ayında önemli ölçüde daha az doğrudan çalıştırılabilir kod üretti
Kodun doğrudan çalıştırılabilirliğinde de önemli bir düşüş var: GPT-4 için doğrudan çalıştırılabilir nesillerin yüzdesi Mart’taki %52’den Haziran’da %10’a düştü. GPT-3.5’teki düşüş de önemliydi (%22’den %2’ye). Sebep: Mart ayında hem GPT-4 hem de GPT-3.5, kullanıcının talimatlarını (“yalnızca kod”) izledi ve böylece doğrudan çalıştırılabilir nesiller üretti.
reklam
Ancak Haziran ayında, kodun önüne ve arkasına ek üçlü tırnak işaretleri ekleyerek, kodu manuel müdahale olmaksızın doğrudan yürütülemez hale getirdiler. Üretilen kodun kalitesi benzer seviyede görünüyor ancak ekip detaylı bir karşılaştırma yapmadı.
Ekip ayrıca, GPT-4’ün Haziran ayında daha az zor soruyu yanıtladığını ve görsel muhakeme görevlerinde biraz daha iyi performans gösterdiğini, ancak Haziran ayında Mart modelinde olmayan hatalar yaptığını gösteriyor. Araştırmacılar ayrıca GPT-3.5 için hafif bir gelişme kaydettiler.
Ekip, şirketlere LLM hizmetleri için izleme analizi uygulamalarını önerir.
GPT-4 şimdi Mart ayında olduğundan daha mı kötü? Çalışma, bu soruya net bir cevap vermiyor, ancak Haziran sürümünün eski sürümde olmayan hatalar içerdiğini gösteriyor gibi görünüyor.
Peki buradaki asıl mesaj nedir?
Araştırmacılar, “Bulgularımız, GPT-3.5 ve GPT-4’ün davranışının nispeten kısa bir süre içinde önemli ölçüde değiştiğini gösteriyor” dedi. “Bu, LLM’lerin üretim uygulamalarındaki davranışlarını sürekli olarak değerlendirme ve değerlendirme ihtiyacını vurgulamaktadır.”
Öneri
Dolayısıyla, bu değişikliklerin OpenAI Ürün Başkan Yardımcısı Peter Welinder’in benzer bir örnekte önerdiği gibi hatalar mı yoksa OpenAI’nin maliyetleri düşürmek için yaptığı optimizasyonlara dayalı olarak kalitedeki genel bir düşüşün kanıtı mı olduğu belirsizliğini koruyor – ve bu bir sorun çünkü opak OpenAI’nin müşterilerine.
Sonuç olarak ekip, iş akışlarının bir parçası olarak LLM hizmetlerini kullanan kullanıcılara veya şirketlere, sunulan araştırmaya dayalı olarak uygulamaları için benzer bir izleme analizi uygulamalarını önerir. Ekip, bu süreci ve dil modeli kaymasıyla ilgili daha fazla araştırmayı desteklemek için değerlendirmeyi ve ChatGPT verilerini şu adreste kullanıma sunuyor: GitHub.
OpenAI araştırmaya “inceleyerek” tepki veriyor
Araştırmaya yanıt veriyor. Şu anda OpenAI’de geliştirici ilişkileri lideri olan Logan Kilpatrick, şirketin bildirilen gerilemelerin farkında olduğunu ve bunları araştırdığını söyledi. Ayrıca, yeni modeller piyasaya çıktıkça bu bilinen regresyon vakalarına karşı test etmek için halka açık bir OpenAI değerlendirme seti çağrısında bulundu.
Bu araştırmayı yapmak için zaman ayırdığınız için teşekkür ederiz! Ekip rapor edilen gerilemelerin farkındadır ve bunları araştırmaktadır.
Ek not: Bu tür araştırmalar için halka açık bir OpenAI değerlendirme setinin olması harika olurdu. Bu şekilde, yeni modeller devreye girdikçe, bu bilinenlere karşı test edebiliriz…
— Logan.GPT (@OfficialLoganK) 19 Temmuz 2023
Ayrı bir gönderide, herkese GPT-4 model performansıyla ilgili deneyimlerini bildirdikleri için teşekkür etti. Bu nedenle, OpenAI personelinin hiçbir şeyin değişmediğini söylemesinin ve Welinder’in “onu daha yoğun kullandığınızda, daha önce görmediğiniz sorunları fark etmeye başlarsınız” hipotezini paylaşmasının ardından şirket iletişimi değiştiriyor gibi görünüyor.
Üretken AI pazarının hala kalite kontrolüne ihtiyacı var
Ancak OpenAI’nin GPT-4 ile karşılaştığı sorunlar şirkete özgü değil. AI modellerini dağıtan ve düzenli olarak güncelleyen herhangi bir şirket, müşterileri için doğrudan performans iyileştirmelerine veya maliyet düşüşlerine dönüşmediği takdirde değişiklikleri bildirmek konusunda isteksiz olabilir ve bazı durumlarda şirket, dağıtımdan önce bozulmayı fark etmeyebilir. Örnek olay: Üretken AI hizmeti Midjourney ile performans düşüşü raporları da ortaya çıktı. Bu raporlar, kişisel hesapların ve spekülasyonların aynı yapısını göstermektedir.
Tüm bunlar, üretken AI ürün pazarının ne kadar yeni ve karmaşık olduğunu gösteriyor. Gelecekte, Kilpatrick’in oluşturmak istediği gibi değerlendirmeler, anekdot niteliğindeki kanıtlardan net ölçütlere geçmeye yardımcı olabilir.