Guanaco is a ChatGPT competitor trained on a single GPU in one day



özet
Özet

QLoRA adlı yeni bir yöntem, büyük dil modellerinin tek bir GPU üzerinde ince ayarının yapılmasını sağlar. Araştırmacılar bunu, ChatGPT performansının %99’una ulaşan bir sohbet robotu olan Guanaco’yu eğitmek için kullandı.

Washington Üniversitesi’ndeki araştırmacılar, büyük dil modellerinde ince ayar yapmak için bir yöntem olan QLoRA’yı (Quantized Low Rank Adapters) sunuyor. Ekip, QLoRA ile birlikte Meta’nın LLaMA modellerine dayalı bir sohbet robotu ailesi olan Guanaco’yu piyasaya sürdü. 65 milyar parametreye sahip en büyük Guanaco varyantı, GPT-4 ile yapılan bir kıyaslama çalışmasında ChatGPT (GPT-3.5-turbo) performansının yüzde 99’undan fazlasını elde ediyor.

Büyük dil modellerine ince ayar yapmak, performanslarını artırmak ve istenen ve istenmeyen davranışları eğitmek için en önemli tekniklerden biridir. Ancak bu işlem, LLaMA 65B gibi büyük modeller için hesaplama açısından son derece yoğundur ve bu tür durumlarda 780 gigabayttan fazla GPU RAM gerektirir. Açık kaynak topluluğu, 16 bit modelleri 4 bit modellere indirgemek için çeşitli niceleme yöntemleri kullanırken, çıkarım için gereken belleği önemli ölçüde azaltırken, ince ayar için benzer yöntemler mevcut değildi.

QLoRA, tek bir GPU’da 65 milyar LLM parametresinin ince ayarına izin verir

Ekip, QLoRA ile LLaMA gibi bir modelin 4 bite nicelleştirilmesine ve düşük dereceli uyarlanabilir ağırlıkların (LoRA’lar) eklenmesine ve ardından geri yayılımla eğitilmesine olanak tanıyan bir yöntem gösteriyor. Bu şekilde, yöntem 4 bit modellerin ince ayarını mümkün kılar ve 65 milyar parametreli bir model için bellek gereksinimini 780 gigabayttan 48 gigabaytın altına düşürür – ince ayar ile aynı sonuçla 16 bitlik bir model.

reklam

Resim: Dettmers, Pagnoni ve ark.

Ekip, “Bu, LLM ince ayarının erişilebilirliğinde önemli bir değişime işaret ediyor: şu anda tek bir GPU üzerinde ince ayar yapılabilen, halka açık en büyük modeller.” dedi.

Ekip, QLoRA’yı ve farklı ince ayarlı veri kümelerinin etkisini test etmek için sekiz farklı veri kümesinde 1.000’den fazla modeli eğitti. Önemli bir bulgu: eldeki görev için verilerin kalitesi niceliğinden daha önemlidir. Örneğin, OpenAssistant’ın insanlardan toplanan 9.000 örneğiyle eğitilen modeller, FLANv2’nin bir milyon örneğiyle eğitilenlerden daha iyi sohbet robotlarıdır. Bu nedenle ekip, Guanaco için OpenAssistant verilerine güveniyor.

Açık kaynak modeli Guanaco, ChatGPT düzeyine ulaştı

Ekip, QLoRA’yı kullanarak Guanaco model ailesini eğitiyor; en iyi ikinci model, bir kıyaslamada 33 milyar parametreyle ChatGPT’nin performansının yüzde 97,8’ini elde ederken, onu tek bir tüketici GPU’sunda 12 saatten daha kısa sürede eğitiyor. Ekip, profesyonel bir GPU üzerinde 65 milyar parametreyle en büyük modeli yalnızca 24 saatte ChatGPT performansının yüzde 99,3’ü ile eğitiyor.

7 milyar parametreye sahip en küçük Guanaco modeli, yalnızca 5 gigabayt GPU belleği gerektirir ve Vicuna kıyaslamasında 26 gigabayt Alpaca modelini yüzde 20’den fazla geride bırakır.

Ekip, QLoRA ve Guanaco’ya ek olarak, 953 anlık örnekte modelleri birbiriyle karşılaştıran OpenAssistant karşılaştırmasını da yayınlıyor. Sonuçlar daha sonra insanlar veya GPT-4 tarafından puanlanabilir. Vicuna kriteri yalnızca 80 sağlar.

Öneri

Ekip, günümüzün en büyük dil modellerinde ince ayar yapmanın yanı sıra mobil donanımda özel modeller için uygulamalar görüyor. “QLoRA ayrıca telefonunuzda gizliliği koruyan ince ayar yapılmasını sağlayacak. Bir iPhone 12 Plus ile her gece 3 milyon kelimeye ince ayar yapabileceğinizi tahmin ediyoruz. Bu, yakında telefonlarda her bir uygulama için özelleştirilmiş LLM’lere sahip olacağımız anlamına geliyor, ”dedi ilk yazar Tim Dettmers Twitter’da.

bir demo Guanaco-33B, Hugging Face’te mevcuttur. Daha fazla bilgi ve kod şu adreste mevcuttur: GitHub. Guanaco, Meta’nın LLaMA’sı üzerine inşa edildiğinden, model ticari kullanım için lisanslanmamıştır.



Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top