New open-source language model competes with OpenAI



özet
Özet

Mayıs ayında MosaicML, o zamanlar en iyi açık kaynaklı dil modellerinden birini piyasaya sürdü ve şimdi girişim daha büyük ve daha güçlü bir sürümle devam ediyor.

MosaicML, MPT-7B’den sonra ikinci büyük açık kaynak dil modeli olan MPT-30B’yi piyasaya sürdü. Yeni model, MosaicML’nin parametre sayısının yaklaşık altıda birine sahip olmasına rağmen OpenAI’nin GPT-3 performansını geride bıraktığını iddia ettiği 30 milyar parametreli bir modeldir.

Kodlama gibi bazı alanlarda Meta’nın LLaMA veya Falcon gibi açık kaynak modellerinden daha iyi performans gösterdiği ve diğer alanlarda eşit veya biraz daha kötü performans gösterdiği söyleniyor. Her zaman olduğu gibi, şu anda bu bilgilerin doğrulanması zordur. Selefi gibi ticari amaçlarla kullanılabilen MPT-30B’nin iki çeşidi vardır: Kısa talimatları takip etmek üzere eğitilmiş bir model olan MPT-30-Instruct ve sohbet robotu modeli MPT-30B-Chat.

MPT-30B, daha uzun bir içerik penceresiyle gelir

MPT-30B ayrıca GPT-3, LLaMA veya Falcon’dan (her biri 2.000 jeton) daha uzun dizilerde (8.000 jetona kadar) eğitilmiştir. En yeni “GPT-3.5-turbo” varyantının yarısı kadar olan bağlam uzunluğu, çok sayıda metnin veya kodun aynı anda işlenmesi gereken kullanım durumları için çok uygundur. Bununla birlikte, MosaicML’ye göre, ek optimizasyonla, ince ayar veya çıkarım sırasında dizi uzunluğu kolayca iki katına çıkarılabilir.

reklam

Örnek olarak şirket, verilerini OpenAI’ye teslim etmek istemeyen sağlık veya bankacılık gibi sektörlerdeki uygulamalardan bahsediyor. Genişletilmiş bağlam penceresi, laboratuvar sonuçlarını yorumlamak ve farklı girdileri analiz ederek bir hastanın tıbbi geçmişine ilişkin bilgiler sağlamak için kullanılabilir.

MosiacML, OpenAI’nin tescilli platformunu hedefliyor.

MPT-30B’nin, 80 gigabayt belleğe sahip tek bir grafik kartı üzerinde çalışan Falcon veya LLaMA’dan hesaplama açısından daha verimli olduğu da söyleniyor. MosaicML’nin kurucu ortağı ve CEO’su Naveen Rao, 40 milyar parametreye sahip Falcon modelinin tek bir GPU’da çalışamayacağını açıkladı.

Ancak Rao, OpenAI gibi tescilli platformları gerçek rekabet olarak görüyor; açık kaynak projeleri nihayetinde aynı ekipte yer alıyor, dedi. Açık kaynak dil modellerinin “bu kapalı kaynak modellere olan boşluğu kapattığını” vurguladı. OpenAI’nin GPT-4’ü hala açık bir şekilde üstün, dedi, ancak “bu modellerin gerçekten son derece yararlı olduğu eşiği geçtikleri” zaman geldi.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top