STEVE-1, metin yönergelerini kullanarak Minecraft’ta görevleri gerçekleştirebilen üretken bir yapay zeka modelidir.
Doğal dil talimatlarına yanıt verebilen yapay zeka modelleri inanılmaz derecede popüler hale geldi, ancak karmaşık sıralı görevler için talimatları takip edebilen modeller oluşturmak hâlâ bir zorluk. Araştırmacılar şimdi Minecraft’ta çok çeşitli kısa ufuklu metin ve görsel talimatları takip edebilen bir yapay zeka asistanı olan STEVE-1’i tanıttı.
STEVE-1, mevcut iki yapay zeka modeli üzerine kuruludur – 70.000 saatlik Minecraft oynanışı üzerine önceden eğitilmiş bir temel model olan VPT ve metin altyazılarını Minecraft videolarıyla hizalayan MineCLIP. DALL-E 2’nin unCLIP yönteminden ilham alan bir yaklaşım kullanan araştırmacılar, MineCLIP tarafından kodlanan görsel hedefleri takip etmek için VPT’de ince ayar yaptı ve ardından metin istemlerini MineCLIP görsel yerleştirmelerine çevirmek için bir modül eğitti.

Bu iki adımlı model, STEVE-1’in Minecraft’ta yalnızca 60 $’lık hesaplama ve 2.000 etiketli örnekle hem metin hem de görsel talimatları izlemesini sağlar.
reklam
STEVE-1, Minecraft’ta önceki AI ajanlarını geride bıraktı
Testlerinde STEVE-1, ilgili talimatlar verildiğinde, çok daha fazla kaynak toplayarak ve daha uzakları keşfederek Minecraft’taki önceki AI ajanlarından önemli ölçüde daha iyi performans gösterdi ve metin veya resimlerle istendiğinde ağaçları kesmek, kaynakları toplamak ve keşfetmek gibi çeşitli kısa vadeli görevleri gerçekleştirebiliyor.
Araştırmacılar, zincirleme istemlerin, eşya işleme veya yapı inşa etme gibi daha uzun vadeli görevlerde performansı sıfıra yakın bir seviyeden yüzde 50 ila 70’lik bir başarı oranına yükselttiğini buldular. Ekip ayrıca STEVE-1’in insan talimatlarına gerçek zamanlı olarak yanıt verdiğini ve etkileşimli bir asistan olarak potansiyelini gösterdiğini gösteriyor.
STEVE-1, “Minecraft’ın ötesindeki alanlarda öğretilebilir ajanlar” için bir plandır.
Kağıt, görüntü oluşturmaya benzer şekilde, daha uzun, daha spesifik bir isteme geçişin STEVE-1’in uzun vadeli görevlerdeki performansını önemli ölçüde artırmasına rağmen, benzer şekilde sezgisel değildir ve zaman alıcıdır ve daha fazla iş yapılması gerektiğini belirtir.
Ekip, STEVE-1’in doğrudan ham piksel girişi ve düşük seviyeli fare ve klavye eylemlerinden çalıştığı için, yaklaşımın Minecraft’ın ötesindeki alanlarda talimat verilebilir ajanlar oluşturmak için daha geniş bir şekilde uygulanabileceğini söyledi. Gelecekteki çalışmalar, aracının çok adımlı görevleri planlamasına ve yürütmesine yardımcı olmak için büyük dil modellerini birleştirerek STEVE-1’in daha uzun, daha karmaşık talimatları işleme yeteneğini geliştirmeye odaklanacak.
Daha fazla bilgi ve kod şu adreste mevcuttur: STEVE-1 proje sayfası.
Öneri