Bundan böyle, ChatGPT Plus aboneleri GPT-4’e üç saat içinde 50 adede kadar mesaj gönderebilir. Yeni modelin Mart ayında tanıtılmasının ardından sayı, hesaplama ve maliyet nedenleriyle iki saat içinde 25 mesajla sınırlandırıldı.
Mesaj sayısındaki artış, daha verimli bir model olabilen, ancak aynı zamanda kaliteden de ödün verebilecek (aşağıya bakınız) yakın zamanda piyasaya sürülen GPT-4 sürümü “0613” ile ilgili olabilir.
Mart modeli “0314” ile karşılaştırıldığında göze çarpan, yeni modelin önemli ölçüde daha yüksek yazma hızıdır. Bu, GPT-3’ten GPT-3.5’e geçerken de geçerliydi. Ancak kalite kaybı olmadı. Yeni GPT-4 modeli “0613”, önemli ölçüde daha fazla RPM (dakika başına istek) ve TPM (dakika başına belirteç) işleyebilir.

GPT-4 daha fazla hacim sunuyor ve daha hızlı – kalite pahasına mı?
API aracılığıyla yaptığımız testlerde, yeni GPT-4 sürümü, Mart sürümü için oluşturulan bilgi istemi şablonlarımızı daha az güvenilir ve daha az ayrıntılı olarak takip ediyor ve olgusal hatalara daha yatkın.
reklam
Örneğin, GPT-4 ile makalelerimizin altında bazı özetler oluşturuyoruz. Barry Diller’ın dava planları hakkındaki bu haberin özetinde, eski GPT-4 modeli, Diller’in yapay zeka şirketlerine dava açmak için yayıncılarla işbirliği yapmak istediğini doğru bir şekilde yakalıyor.

GPT-4’ün yeni versiyonu Diller’in yayıncılara dava açmak istediğini iddia ediyor. Bu hata, aynı bilgi istemiyle birden fazla yenilemede yeniden üretilebilir. Eski versiyon her zaman doğru, yeni olan her zaman yanlıştır.

Tabii ki, bu sadece anekdotsal bir gözlem. Ancak daha sistematik bir araştırma, ChatGPT’nin Mart ayından bu yana GPT-3.5 ve GPT-4 ile kalitesini kaybettiğini de gösteriyor. Ancak nihayetinde, bu kesin olarak kanıtlanmamıştır ve olası nedenler bilinmemektedir.
Modelin kalitesinin düştüğü iddiasıyla haftalardır özellikle sosyal medya ve Reddit’teki sık kullanıcılar tarafından eleştiriler dile getiriliyordu. OpenAI her zaman kalitede herhangi bir bozulma olmadığına işaret etti ve eğer bir şey değiştiyse, bu bir gelişmedir. Bazen alıntılanan örnekler muhtemelen hatalardır. Çalışma yayınlandığına göre, OpenAI örnekleri ve olası kalite bozulmasını araştırmak istiyor.
LLM’ler günlük işler için güvenilir olmalıdır
Potansiyel olarak düşük performans eleştirisinin doğru olup olmadığına bakılmaksızın, OpenAI’ye model değişikliklerinde modelinin güvenilirliğini sağlaması ve daha iyi ve daha şeffaf bir şekilde iletişim kurması tavsiye edilir. Özellikle yeniden hizmet satan ticari müşteriler için, günlük kullanımdaki kalite dalgalanmaları iş modelini tehlikeye atabilir.
Öneri
Bu, modelde bir bozulma bile olmayabilir, örneğin, hızlı uyumlulukta bir sapma olabilir. Modellerin tam olarak nasıl çalıştığına dair anlayış hala düşük olduğundan, OpenAI burada zorlu bir görevle karşı karşıyadır ve bu, müşteri tabanı büyüdükçe daha da zorlaşacaktır.