OpenAI GPT-4’ün Mixture of Experts mimarisine dayandığı ve 1.76 trilyon parametreye sahip olduğu söyleniyor.
GPT-4’ün, Mixture of Experts (MoE) mimarisinde birbirine bağlanan, her biri 220 milyar parametreye sahip sekiz modele dayandığı söyleniyor. Fikir neredeyse 30 yaşında ve daha önce Google’ın Switch Transformer’ı gibi büyük dil modellerinde kullanılmıştı.
MoE modeli, karar vermek için “uzmanlar” olarak adlandırılan farklı modelleri birleştiren bir toplu öğrenme türüdür. Bir MoE modelinde, bir yolluk ağı, girdiye dayalı olarak her bir uzmanın çıktısının ağırlığını belirler. Bu, farklı uzmanların girdi uzayının farklı bölümlerinde uzmanlaşmasını sağlar. Bu mimari, sorunlu uzayı daha basit alt uzaylara etkili bir şekilde bölebildiğinden, özellikle büyük ve karmaşık veri kümeleri için kullanışlıdır.
OpenAI’den açıklama yok, ancak söylentiler inandırıcı
GPT-4 hakkındaki bilgiler, otonom sürüş girişimi Comma.ai’nin kurucusu George Hotz’dan geliyor. Hotz, bilgisayar korsanlığı geçmişiyle de tanınan bir yapay zeka uzmanı: iPhone ve Sony Playstation 3’ü kıran ilk kişi oydu.
reklam
Diğer AI uzmanları da Hotz’un Twitter akışına yorum yaparak, bilgilerinin büyük olasılıkla doğru olduğunu söyledi.
aynısını duymuş olabilirim 😃 — Herhalde böyle bir bilgi dolaşıyor ama kimse yüksek sesle söylemek istemiyor.
GPT-4: Farklı veri/görev dağıtımları ve 16-iterlik çıkarım ile eğitilmiş 8 x 220B uzmanı.
Geohot’un bunu yüksek sesle söylemesine sevindim.— Soumith Chintala (@sumithchintala) 20 Haziran 2023
Açık kaynak, GPT-4’ten ne öğrenebilir?
Mimari, farklı ekiplerin ağın farklı bölümlerinde çalışmasına izin vererek GPT-4’ün eğitimini basitleştirmiş olabilir. Bu aynı zamanda OpenAI’nin GPT-4’ün çok modlu yeteneklerini şu anda mevcut olan üründen bağımsız olarak geliştirip ayrı ayrı piyasaya sunabilmesinin nedenini de açıklayacaktır. Ancak PyTorch’un kurucularından biri olan Soumith Chintala, bu arada GPT-4’ün daha verimli olması için daha küçük bir modelde birleştirilmiş olabileceğini düşünüyor.
Hotz ayrıca GPT-4’ün yalnızca bir çıktı değil, yinelemeli olarak her yinelemede iyileştirilen 16 çıktı ürettiğini tahmin etti.
Açık kaynak topluluğu artık bu mimariyi kopyalamayı deneyebilir; fikirler ve teknoloji bir süredir mevcuttu. Ancak GPT-4, MoE mimarisinin doğru eğitim verileri ve hesaplama kaynaklarıyla ne kadar ileri gidebileceğini göstermiş olabilir.