Deepmind’s new AI agent learns 26 games in two hours



özet
Özet

Yapay zeka algoritması “Daha Büyük, Daha İyi, Daha Hızlı”, 26 Atari oyununu yalnızca iki saatte yöneterek insan verimliliğiyle eşleşir.

Takviyeli öğrenme, Google Deepmind’in temel araştırma alanlarından biridir ve bir gün yapay zeka ile gerçek dünyadaki birçok sorunu çözebilir. Bununla birlikte, büyük bir sorun, çok verimsiz olma eğiliminde olmasıdır: RL algoritmaları, çok fazla eğitim verisi ve çok fazla bilgi işlem gücü gerektirir. Google Deepmind ve Mila ile Université de Montrèal’den araştırmacılar, son çalışmalarında bunun farklı şekilde yapılabileceğini gösteriyor.

Daha Büyük, Daha İyi, Daha Hızlı Atari oyunlarını iki saatte öğrenir

Daha Büyük, Daha İyi, Daha Hızlı (BBF) modeli, Atari kıyaslamalarında ortalama insanüstü performansa sahipti. Bu yeni bir şey değil – diğer takviyeli öğrenme ajanları, Atari oyunlarında insanları yendi.

Ancak BBF, yalnızca 2 saatlik oyunla öğrenir; bu, insan testçilerin kıyaslamada kullanabileceği pratik süresiyle aynı miktardadır. Böylece, modelden bağımsız öğrenme algoritması insan öğrenme verimliliğine ulaşır ve eski yöntemlere göre önemli ölçüde daha az hesaplama gücü gerektirir. Modelden bağımsız temsilciler, oyun dünyasının bir modelini açıkça oluşturmadan, oyun dünyasıyla etkileşimleri yoluyla aldıkları ödül ve cezalardan doğrudan öğrenirler.

reklam

Ekip, verimliliği artırmak için çok daha geniş bir ağ, kendi kendini izleme eğitim yöntemleri ve diğer yöntemleri kullanarak bunu başardı. Örneğin, BBF tek bir Nvidia A100 GPU üzerinde eğitilebilirken, diğer yaklaşımlar çok daha fazla bilgi işlem gücü gerektirir.

Daha fazla iyileştirme mümkün, Atari hala iyi bir kriter

Ekip, BBF’nin, tipik olarak RL ajanları için kullanılan 55 oyunun 29’unu atlayan kıyaslamadaki tüm oyunlarda henüz insanlardan üstün olmadığına dikkat çekiyor. Bununla birlikte, BFF’yi 55 oyunun tamamında diğer modellerle karşılaştırmak, verimli algoritmanın kabaca 500 kat daha fazla veriyle eğitilmiş sistemlerle aynı seviyede olduğunu gösteriyor.

Ekip ayrıca bunu, Atari karşılaştırmasının RL için hala iyi bir ölçüt olduğunun ve araştırmayı daha küçük araştırma ekipleri için finanse edilebilir hale getirdiğinin bir göstergesi olarak görüyor.

Önceki verimli RL algoritmaları da ölçeklendirmede zayıflıklar gösterirken, BFF’nin herhangi bir sınırlaması yoktur ve daha fazla eğitim verisiyle performans kazanmaya devam eder.

Ekip, “Genel olarak, çalışmamızın diğer araştırmacılara derin RL’de numune verimliliği sınırını ileriye taşımaya devam etmeleri, insan düzeyinde veya insanüstü verimlilikle tüm görevlerde insan düzeyinde performansa nihai olarak ulaşmaları için ilham vermesini umuyoruz.”

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top