QLoRA adlı yeni bir yöntem, büyük dil modellerinin tek bir GPU üzerinde ince ayarının yapılmasını sağlar. Araştırmacılar bunu, ChatGPT performansının %99’una ulaşan bir sohbet robotu olan Guanaco’yu eğitmek için kullandı.
Washington Üniversitesi’ndeki araştırmacılar, büyük dil modellerinde ince ayar yapmak için bir yöntem olan QLoRA’yı (Quantized Low Rank Adapters) sunuyor. Ekip, QLoRA ile birlikte Meta’nın LLaMA modellerine dayalı bir sohbet robotu ailesi olan Guanaco’yu piyasaya sürdü. 65 milyar parametreye sahip en büyük Guanaco varyantı, GPT-4 ile yapılan bir kıyaslama çalışmasında ChatGPT (GPT-3.5-turbo) performansının yüzde 99’undan fazlasını elde ediyor.
Büyük dil modellerine ince ayar yapmak, performanslarını artırmak ve istenen ve istenmeyen davranışları eğitmek için en önemli tekniklerden biridir. Ancak bu işlem, LLaMA 65B gibi büyük modeller için hesaplama açısından son derece yoğundur ve bu tür durumlarda 780 gigabayttan fazla GPU RAM gerektirir. Açık kaynak topluluğu, 16 bit modelleri 4 bit modellere indirgemek için çeşitli niceleme yöntemleri kullanırken, çıkarım için gereken belleği önemli ölçüde azaltırken, ince ayar için benzer yöntemler mevcut değildi.
QLoRA, tek bir GPU’da 65 milyar LLM parametresinin ince ayarına izin verir
Ekip, QLoRA ile LLaMA gibi bir modelin 4 bite nicelleştirilmesine ve düşük dereceli uyarlanabilir ağırlıkların (LoRA’lar) eklenmesine ve ardından geri yayılımla eğitilmesine olanak tanıyan bir yöntem gösteriyor. Bu şekilde, yöntem 4 bit modellerin ince ayarını mümkün kılar ve 65 milyar parametreli bir model için bellek gereksinimini 780 gigabayttan 48 gigabaytın altına düşürür – ince ayar ile aynı sonuçla 16 bitlik bir model.
reklam

Ekip, “Bu, LLM ince ayarının erişilebilirliğinde önemli bir değişime işaret ediyor: şu anda tek bir GPU üzerinde ince ayar yapılabilen, halka açık en büyük modeller.” dedi.
Ekip, QLoRA’yı ve farklı ince ayarlı veri kümelerinin etkisini test etmek için sekiz farklı veri kümesinde 1.000’den fazla modeli eğitti. Önemli bir bulgu: eldeki görev için verilerin kalitesi niceliğinden daha önemlidir. Örneğin, OpenAssistant’ın insanlardan toplanan 9.000 örneğiyle eğitilen modeller, FLANv2’nin bir milyon örneğiyle eğitilenlerden daha iyi sohbet robotlarıdır. Bu nedenle ekip, Guanaco için OpenAssistant verilerine güveniyor.
Açık kaynak modeli Guanaco, ChatGPT düzeyine ulaştı
Ekip, QLoRA’yı kullanarak Guanaco model ailesini eğitiyor; en iyi ikinci model, bir kıyaslamada 33 milyar parametreyle ChatGPT’nin performansının yüzde 97,8’ini elde ederken, onu tek bir tüketici GPU’sunda 12 saatten daha kısa sürede eğitiyor. Ekip, profesyonel bir GPU üzerinde 65 milyar parametreyle en büyük modeli yalnızca 24 saatte ChatGPT performansının yüzde 99,3’ü ile eğitiyor.
7 milyar parametreye sahip en küçük Guanaco modeli, yalnızca 5 gigabayt GPU belleği gerektirir ve Vicuna kıyaslamasında 26 gigabayt Alpaca modelini yüzde 20’den fazla geride bırakır.
Ekip, QLoRA ve Guanaco’ya ek olarak, 953 anlık örnekte modelleri birbiriyle karşılaştıran OpenAssistant karşılaştırmasını da yayınlıyor. Sonuçlar daha sonra insanlar veya GPT-4 tarafından puanlanabilir. Vicuna kriteri yalnızca 80 sağlar.
Öneri
Guanaco matematikte kötü, QLoRA mobil ince ayar için kullanılabilir
Ekip, matematik yeteneklerinden ve 4 bitlik çıkarımın şu anda sınırlamalar olarak çok yavaş olduğu gerçeğinden bahsediyor. Ardından, ekip çıkarımı iyileştirmek istiyor ve 8 ila 16 kat hız artışı bekliyor.
İnce ayar, büyük dil modellerini ChatGPT benzeri sohbet botlarına dönüştürmek için temel bir araç olduğundan, ekip, QLoRA yönteminin ince ayarı özellikle daha az kaynağa sahip araştırmacılar için daha erişilebilir hale getireceğine inanıyor. Doğal dil işlemede en son teknolojinin erişilebilirliği için bunun büyük bir kazanç olduğunu söylüyorlar.
Raporda, “QLORA, tüketici GPU’larına sahip büyük şirketler ve küçük ekipler arasındaki kaynak açığını kapatmaya yardımcı olan bir dengeleyici faktör olarak görülebilir” ifadesi yer alıyor. Bu ayrıca, bir kişinin zaten gösterdiği gibi, Colab gibi bulut hizmetleri aracılığıyla ince ayarın mümkün olduğu anlamına gelir.
Google Colab’de 33B parametreli bir LLM’de birkaç saat içinde ince ayar yaptığıma inanamıyorum.😱
Normal GPU’larda açık kaynaklı LLM kullananlarınız için çılgın bir duyuru! 🤯
Yeni bir makale yayınlandı, QLoRA, eğitme yeteneği için oyunun kurallarını değiştirmekten başka bir şey olmayan ve… pic.twitter.com/Ye1zuH4gQD
— Itamar Golan 🤓 (@ItakGol) 25 Mayıs 2023
Ekip, günümüzün en büyük dil modellerinde ince ayar yapmanın yanı sıra mobil donanımda özel modeller için uygulamalar görüyor. “QLoRA ayrıca telefonunuzda gizliliği koruyan ince ayar yapılmasını sağlayacak. Bir iPhone 12 Plus ile her gece 3 milyon kelimeye ince ayar yapabileceğinizi tahmin ediyoruz. Bu, yakında telefonlarda her bir uygulama için özelleştirilmiş LLM’lere sahip olacağımız anlamına geliyor, ”dedi ilk yazar Tim Dettmers Twitter’da.
bir demo Guanaco-33B, Hugging Face’te mevcuttur. Daha fazla bilgi ve kod şu adreste mevcuttur: GitHub. Guanaco, Meta’nın LLaMA’sı üzerine inşa edildiğinden, model ticari kullanım için lisanslanmamıştır.