Microsoft’s tiny Phi-1 language model shows how important data quality is for AI training



özet
Özet

Yapay zeka sistemlerini ölçeklendirirken, insanlar genellikle modellerin boyutundan ve veri miktarından bahseder. Ancak üçüncü bir faktör de aynı derecede önemlidir: verilerin kalitesi.

Microsoft’taki araştırmacılar, dönüştürücü tabanlı dil modeli phi-1 ile küçük ama yüksek kaliteli veriler üzerinde eğitildiklerinde küçük bir dil modelinin kodlama görevlerini gerçekleştirme becerisini incelediler.

Araştırmacılar, yapay zekayı eğitmek için yalnızca “ders kitabı kalitesindeki” verileri kullandıklarını söylüyor. The Stack ve StackOverflow veri kümelerinden, GPT-4’e dayalı bir sınıflandırıcı kullanarak kod için altı milyar yüksek kaliteli eğitim jetonunu filtrelediler. Ekip, GPT 3.5’i kullanarak bir milyar jeton daha oluşturdu.

Eğitim, sekiz adet Nvidia A100 grafik kartında yalnızca yaklaşık dört gün sürdü.

reklam

Phi-1, kıyaslamalarda daha büyük modelleri önemli ölçüde geride bırakıyor

Ek olarak kod görevleriyle geliştirilmiş en büyük küçük model olan phi-1 1.3B, HumanEval ve MBPP kıyaslamalarında 10 kat daha büyük ve 100 kat daha fazla veri kullanan modelleri geride bırakıyor. Test senaryolarında yalnızca GPT-4, phi-1’i yener.

Phi-1 testleri. | Resim: Microsoft

Sonuçlar araştırmacıların beklentilerini aştı. Ekip, makalenin başlığından da anlaşılacağı gibi, bunları doğrudan veri kalitesine bağlıyor: Google’ın Transformer atılımı konusundaki araştırmasına (“Dikkat, ihtiyacınız olan tek şey”) atıfta bulunarak “Ders kitapları ihtiyacınız olan tek şey.”

Bununla birlikte, Phi-1’in daha büyük modellere kıyasla bazı sınırlamaları da vardır. Python programlamadaki uzmanlığı, çok yönlülüğünü sınırlar, belirli API’lerle programlama gibi daha büyük LLM’lerin alana özgü bilgisinden yoksundur ve Phi-1’in yapılandırılmış doğası, onu stil varyasyonlarına veya bilgi istemlerindeki giriş hatalarına karşı daha az dayanıklı hale getirir.

Sentetik veriler, yüksek hata oranına sahip GPT-3.5 yerine GPT-4 kullanılarak üretilirse, model performansında daha fazla iyileştirme mümkün olacaktır. Ancak ekip, birçok hataya rağmen modelin etkili bir şekilde öğrenebildiğine ve doğru kodu üretebildiğine dikkat çekiyor. Bu, yararlı modellerin veya temsillerin hatalı verilerden çıkarılabileceğini gösterir.

Veri kalitesine odaklanan uzman modeller

Araştırmacılar, çalışmalarının yüksek kaliteli verilerin AI eğitimi için kritik olduğunu doğruladığını söylüyor. Ancak, yüksek kaliteli veri toplamanın zor olduğunu söylüyorlar. Özellikle dengeli, çeşitli olmalı ve tekrardan kaçınılmalıdır. Özellikle son iki nokta için ölçüm yöntemlerinde eksiklik vardır. Phi-1 yakında Hugging Face’te açık kaynak olarak piyasaya sürülecek.

Öneri

bu duyguyu paylaşıyorgelecekte daha “küçük ve güçlü uzman modeller” görmeyi beklediğini söylüyor. Bu AI modelleri, veri kalitesine, niceliğe göre çeşitliliğe öncelik verecek ve tamamlayıcı sentetik veriler üzerinde eğitilecektir.



Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top