Minecraft bot Voyager programs itself using GPT-4



özet
Özet

Voyager, öğrenen bir Minecraft ajanına piksel dünyasında rehberlik etmek için GPT-4’ü kullanıyor. Takviyeli öğrenme yerine, Voyager kod oluşturmaya güvenir.

Nvidia, Caltech, UT Austin, Stanford ve ASU’dan araştırmacılar Minecraft oynayan ilk hayat boyu öğrenme aracısı olan Voyager’ı tanıttı. Örneğin, klasik takviyeli öğrenme tekniklerini kullanan diğer Minecraft aracılarının aksine, Voyager kendini sürekli geliştirmek için GPT-4’ü kullanır. Bunu, harici bir beceri kitaplığında depolanan kodu yazarak, geliştirerek ve aktararak yapar.

Bu, gezinmeye, kapıları açmaya, kaynakları çıkarmaya, kazma yapmaya veya bir zombiyle savaşmaya yardımcı olan küçük programlarla sonuçlanır. Projeye danışmanlık yapan Nvidia araştırmacısı Jim Fan, “GPT-4 yeni bir paradigmanın kilidini açıyor” diyor. Bu paradigmada, “eğitim”, kodun yürütülmesidir ve “eğitilmiş model”, Voyager’ın yinelemeli olarak bir araya getirdiği becerilerin kod temelidir.

Voyager üç ana bileşenden oluşur:

reklam

  1. Programları iyileştirmek için oyundan geri bildirim, yürütme hataları ve kendi kendini denetlemeyi içeren yinelemeli bir yönlendirme mekanizması.
  2. Karmaşık davranışları depolamak ve almak için kod içeren bir beceri kitaplığı.
  3. Keşfi en üst düzeye çıkarmak için otomatikleştirilmiş bir müfredat.

Video: Wang, Xie, Jiang, Mandlekar ve diğerleri.

Voyager Minecraft temsilcisi bağlam içinde öğrenir

Minecraft temsilcisi yinelemeli bir şekilde öğrenir: Voyager, bir hedefe ulaşmak için GPT-4 ile bir program yazar ve programı GPT-4 ile iyileştirmek için oyun ortamından gelen geri bildirimleri ve olası Javascript hatalarını kullanır. Bu şekilde, Voyager aşamalı olarak bir beceri kitaplığı oluşturur ve başarılı programları bir vektör veritabanında depolar. Karmaşık beceriler, daha basit becerilerden oluşturulur.

Video: Wang, Xie, Jiang, Mandlekar ve diğerleri.

Ekip, Minecraft’ın çeşitli dünyasını keşfetmek için aracının mevcut becerilerine ve dünyanın mevcut durumuna dayalı olarak uygun keşif görevleri öneren otomatikleştirilmiş bir müfredat kullanır. Örneğin, ajan demir için kazmadan önce bir çölde kum ve kaktüs toplamayı öğrenir.

Voyager, GPT-4 ile yeni görevler planlamak için ortamla ilgili bilgileri kullanır. | Resim: Wang, Xie, Jiang, Mandlekar ve diğerleri.

Birlikte bu, sürekli öğrenen ve çeşitli görevleri yerine getirebilen bir aracı oluşturur. Ekip, tüm deneyleri MineDojo ortamında gerçekleştirir.

Öneri

gezgin projesi sayfa. Kod şu adreste mevcuttur: GhitHub.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top