With “InternLM”, China enters the race for large language models



özet
Özet

InternLM, Çin’in ulusal yapay zeka laboratuvarı Shanghai AI Lab ile gözetim şirketi SenseTime tarafından sunulan 104 milyar parametreli büyük bir dil modelidir.

Hong Kong Çin Üniversitesi, Fudan Üniversitesi ve Şangay Jiaotong Üniversitesi de gelişimine dahil oldu. Çince görevlerde, OpenAI’nin ChatGPT ve Anthropics Claude’dan açıkça daha iyi performans gösteriyor.

Ancak, GPT-4’ü takip eder C-Değerlendirmesi, Çince’deki büyük dil modellerinin performansını derecelendiren bir platform. InternLM, 1,6 trilyon jetonla eğitildi ve ardından GPT-4 gibi, RLHF ve seçilmiş örnekler kullanılarak insan ihtiyaçlarına göre rafine edildi. GPT benzeri bir trafo mimarisine dayanmaktadır.

Resim: Ekran görüntüsü cevalbenchmark.com

Eğitim, öncelikle ansiklopediler, kitaplar, bilimsel makaleler ve kodlarla zenginleştirilmiş Massive Web Text verilerine dayanıyordu. Araştırmacılar ayrıca, bir dizi paralel eğitim tekniği kullanarak 2048 GPU’da 200 milyardan fazla parametreyle büyük dil modellerini güvenilir bir şekilde eğitebilen Uniscale LLM eğitim sistemini geliştirdi.

reklam

InternLM, sınav kıyaslamalarında ChatGPT seviyesindedir

MMLU, AGIEval, C-Eval ve GAOKAO Bench gibi insan sınavlarını taklit eden görevlere sahip kıyaslamalarda da InternLM, ChatGPT düzeyinde performans elde eder. Ancak, araştırmacıların yalnızca 2000 jetonluk küçük bağlam penceresine atfettiği GPT-4’ün gerisinde kalıyor.

Bilgi erişimi gibi diğer alanlarda, model en iyi OpenAI modellerinin gerisinde kalıyor. Meta’nın 65 milyar parametreli LLaMA’sı gibi popüler açık kaynak dil modelleri, kıyaslamalarda InternLM’den daha kötü performans gösteriyor.

Resim: Shanghai AI Lab / Sense Time

Ekip şimdiye kadar dil modelini yayınlamadı, yalnızca teknik belgeler mevcut. Ancak,o ekip Github’da yazıyor detay vermeden gelecekte toplulukla daha fazlasını paylaşmayı planladığını söyledi.

Her şeye rağmen InternLM, State AI Lab ve SenseTime’ın bugüne kadarki en iyi çalışmalarını yaptığını varsayarak, Çin’in büyük ölçekli dil modelleri araştırmalarının mevcut durumuna ilginç bir bakış sunuyor. Araştırma ekibi, “Daha yüksek bir zeka düzeyine doğru, önümüzde uzun bir yol var” diye yazıyor.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top