GPT-4 architecture, datasets, costs and more leaked



özet
Özet

  • SemiAnalysis raporundan yeni bilgiler eklendi

Güncelleme, 11 Temmuz 2023:

SemiAnalysis’in yeni bir raporu, OpenAI’nin GPT-4’ü hakkında daha fazla ayrıntı ortaya koyuyor ve şu sonuca varıyor: “OpenAI, GPT-4’ün mimarisini insanlık için bazı varoluşsal riskler nedeniyle değil, inşa ettikleri şey tekrarlanabilir olduğu için kapalı tutuyor.” Raporun ayrıntıları, George Hotz gibi kişiler tarafından paylaşılan zaten bilinen bilgilerin çoğunu doğrulayan Twitter ve Pastebin’de sızdırıldı.

Anahtar noktalar:

  • GPT-4’ün Ölçeği: GPT-4, 120 katmanda ~1,8 trilyon parametreye sahiptir ve bu, GPT-3’ten 10 kat daha büyüktür.
  • Uzman Karışımı (MoE): OpenAI, modelinde her biri MLP için ~111B parametreye sahip 16 uzman kullanır. Bu uzmanlardan ikisi, maliyetleri yönetilebilir tutmaya katkıda bulunan ileri geçiş başına yönlendirilir.
  • veri kümesi: GPT-4, ScaleAI’den ve dahili olarak bazı ince ayar verileriyle hem metin tabanlı hem de kod tabanlı veriler dahil olmak üzere ~13T belirteçleri üzerinde eğitilmiştir.
  • Veri Kümesi Karışımı: Eğitim verileri, CommonCrawl ve RefinedWeb’i içeriyordu ve toplam 13T jeton. Spekülasyonlar, Twitter, Reddit, YouTube gibi ek kaynaklar ve geniş bir ders kitabı koleksiyonu önermektedir.
  • Eğitim Maliyeti: Gereken hesaplama gücü ve eğitim süresi dikkate alındığında, GPT-4’ün eğitim maliyeti yaklaşık 63 milyon dolardı.
  • Çıkarım Maliyeti: Gereken daha büyük kümeler ve daha düşük kullanım oranları nedeniyle GPT-4, 175B parametreli Davinci’den 3 kat daha pahalıdır.
  • Çıkarım Mimarisi: Çıkarım, 8 yollu tensör paralelliği ve 16 yollu ardışık düzen paralelliği kullanılarak 128 GPU’luk bir küme üzerinde çalışır.
  • Vizyon Çok Modlu: GPT-4, otonom aracıların web sayfalarını okuması ve görüntüleri ve videoları yazıya dökmesi için bir görsel kodlayıcı içerir. Mimari Flamingo’ya benzer. Bu, üstüne daha fazla parametre ekler ve başka bir ~2 trilyon jetonla ince ayar yapılır.

28 Haziran 2023 tarihli orijinal makale:

reklam

OpenAI GPT-4’ün Mixture of Experts mimarisine dayandığı ve 1.76 trilyon parametreye sahip olduğu söyleniyor.

GPT-4’ün, Mixture of Experts (MoE) mimarisinde birbirine bağlanan, her biri 220 milyar parametreye sahip sekiz modele dayandığı söyleniyor. Fikir neredeyse 30 yaşında ve daha önce Google’ın Switch Transformer’ı gibi büyük dil modellerinde kullanılmıştı.

MoE modeli, karar vermek için “uzmanlar” olarak adlandırılan farklı modelleri birleştiren bir toplu öğrenme türüdür. Bir MoE modelinde, bir yolluk ağı, girdiye dayalı olarak her bir uzmanın çıktısının ağırlığını belirler. Bu, farklı uzmanların girdi uzayının farklı bölümlerinde uzmanlaşmasını sağlar. Bu mimari, sorunlu uzayı daha basit alt uzaylara etkili bir şekilde bölebildiğinden, özellikle büyük ve karmaşık veri kümeleri için kullanışlıdır.

OpenAI’den açıklama yok, ancak söylentiler inandırıcı

GPT-4 hakkındaki bilgiler, otonom sürüş girişimi Comma.ai’nin kurucusu George Hotz’dan geliyor. Hotz, bilgisayar korsanlığı geçmişiyle de tanınan bir yapay zeka uzmanı: iPhone ve Sony Playstation 3’ü kıran ilk kişi oydu.

Diğer AI uzmanları da Hotz’un Twitter akışına yorum yaparak, bilgilerinin büyük olasılıkla doğru olduğunu söyledi.

Öneri

Açık kaynak, GPT-4’ten ne öğrenebilir?

Mimari, farklı ekiplerin ağın farklı bölümlerinde çalışmasına izin vererek GPT-4’ün eğitimini basitleştirmiş olabilir. Bu aynı zamanda OpenAI’nin GPT-4’ün çok modlu yeteneklerini şu anda mevcut olan üründen bağımsız olarak geliştirip ayrı ayrı piyasaya sunabilmesinin nedenini de açıklayacaktır. Ancak PyTorch’un kurucularından biri olan Soumith Chintala, bu arada GPT-4’ün daha verimli olması için daha küçük bir modelde birleştirilmiş olabileceğini düşünüyor.

Hotz ayrıca GPT-4’ün yalnızca bir çıktı değil, yinelemeli olarak her yinelemede iyileştirilen 16 çıktı ürettiğini tahmin etti.

Açık kaynak topluluğu artık bu mimariyi kopyalamayı deneyebilir; fikirler ve teknoloji bir süredir mevcuttu. Ancak GPT-4, MoE mimarisinin doğru eğitim verileri ve hesaplama kaynaklarıyla ne kadar ileri gidebileceğini göstermiş olabilir.



Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top