OpenAI improves GPT-4’s mathematical reasoning with a new form of supervision



özet
Özet

OpenAI, bazı matematik problemlerini çözmede SOTA’ya ulaşan bir AI modeli gösterir. Altta yatan süreç, genel olarak daha iyi dil modellerine yol açabilir.

Adım Adım Doğrulayalım makalesinde OpenAI ekibi, MATH veri kümesindeki sorunları çözmek için GPT-4’e dayalı birkaç model eğitti. Amaç, eğitim ödül modelleri için iki geri bildirim süreci varyantını karşılaştırmaktı.

Ekip özellikle, yapay zeka modelinin bir görevin nihai sonucu hakkında geri bildirim aldığı “sonuç denetimi” ile, modelin muhakemenin her belirli adımında geri bildirim aldığı “süreç denetimi” ile karşılaştırdı. Uygulamada, ikinci süreç insan geri bildirimi gerektirir ve bu nedenle büyük modeller ve çeşitli görevler için maliyetlidir – bu nedenle mevcut çalışma, OpenAI’nin gelecekteki yönünü belirleyebilecek bir araştırmadır.

Süreç denetimi: Uyum vergilerinden nasıl kaçınılır?

Ekibe göre matematiksel görevler için OpenAI, süreç denetiminin hem büyük hem de küçük modeller için önemli ölçüde daha iyi sonuçlar ürettiğini gösterdi; bu, modellerin daha sıklıkla doğru olduğu ve aynı zamanda daha insan benzeri bir düşünce süreci sergilediği anlamına geliyor. Günümüzün en iyi modellerinde bile yaygın olan halüsinasyonlar veya mantık hataları azaltılabilir.

reklam

Proses Denetimi, matematik için daha güçlü bir model üretir. | Resim: OpenAI

Buna ek olarak, OpenAI’ye göre, doğru ara adımların ödüllendirilmesi, bir modelin insani değerler ve beklentilerle uyumlu hale gelmesi nedeniyle performansının düştüğü uyum vergisi olarak bilinen olguyu önler. Test edilen matematik görevleri söz konusu olduğunda, şirket negatif bir hizalama vergisi bile buluyor.

“Bu sonuçların matematik alanının ötesine ne kadar geniş bir şekilde genelleneceği bilinmiyor ve diğer alanlarda süreç denetiminin etkisini keşfetmenin gelecekteki çalışmalar için önemli olduğunu düşünüyoruz. Bu sonuçlar genelleştirilirse, süreç denetiminin bize her iki dünyanın da en iyisini verdiğini görebiliriz – sonuç denetiminden hem daha performanslı hem de daha uyumlu bir yöntem.”

OpenAI

OpenAI, insan etiketli veri kümesini yayınladı

Süreç denetiminin matematik dışındaki alanlara uygulanabilirliğinin daha fazla araştırılması gerekmektedir. Bu sürece yardımcı olmak için OpenAI, MATH veri setindeki tüm ara adımlar için 800.000 insan etiketi içeren, kendi modeli için kullanılan PRM800K veri setini yayınladı.

Katkıda bulunan yazar ve OpenAI kurucu ortağı John Schulman yakın zamanda, büyük dil modellerinde istenen davranışları şekillendirmede ödül modellerinin merkezi rolünü detaylandıran bir konuşma yaptı.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top