Chatbot Arena helps you find the best open-source chatbot



özet
Özet

Şimdiye kadar, açık kaynaklı modellerin kalitesini karşılaştırmanın kolay bir yolu yoktu. E-spordan ilham alan bir sistem yardımcı olabilir.

Açık kaynak modeli Vicuna’nın arkasındaki Büyük Model Sistem Organizasyonu (LMSYS), büyük dil modellerinin performansını karşılaştırmak için “Chatbot Arena” kıyaslama platformunu başlattı. Farklı modeller, isimsiz, rastgele seçilmiş düellolarda birbirleriyle yarışır. Kullanıcılar daha sonra tercih ettikleri cevaba oy vererek modellerin performansını derecelendirir.

Resim: LMSYS/Ekran Görüntüsü

Bu reytinglere göre modeller, satrançta ve özellikle e-sporda yaygın olarak kullanılan Elo reyting sistemine göre sıralanıyor. Prensip olarak, kullanıcılar her şeyi sorabilir ve hatta uzun sohbetler yapabilir, ancak doğrudan modelin adını soramazlar – bu, sıralama için oylarını geçersiz kılar.

GPT-4 en yüksek Elo’ya ulaştı ama Claude yakında

Bu yöntemi kullanan GPT-4 şu anda sıralamada başı çekiyor ve hemen ardından biraz daha büyük bir farkla Claude-v1 ve GPT-3.5-turbo geliyor. En yüksek puan alan açık kaynak modeli Vicuna-13B’dir. Gelecekte, araştırmacılar daha açık kaynak ve kapalı kaynak modellerini entegre etmeyi ve sıralamaları daha kesin bir şekilde parçalamayı planlıyorlar.

reklam

Resim: LMSYS/Ekran Görüntüsü

Meta’nın LLaMA dil modelinin sızdırılmasından bu yana, ChatGPT gibi insan talimatlarını takip etmek ve kullanıcı sorularını chatbot benzeri bir tarzda yanıtlamak üzere tasarlanmış bir dizi açık kaynaklı dil modeli ortaya çıktı. Ancak zorluk, özellikle açık uçlu sorular için bu modelleri etkili bir şekilde değerlendirmektir.

Chatbot Arena’ya girin

Burada, Chatbot Arena umut verici yeni bir yaklaşım sunuyor. Büyük dil modellerini değerlendirmek için Elo sistemi, Anthropic tarafından bir Claude kıyaslaması için zaten kullanılıyor.

Arenada modeller doğrudan birbirleriyle yarışıyor ve kullanıcılar onlarla etkileşim kurarak en iyi modeli oyluyor. Platform, tüm kullanıcı etkileşimlerini toplar, ancak yalnızca bilinmeyen model adlarıyla verilen oyları kullanır. LMSYS’ye göre lansmandan bir hafta sonra yaklaşık 4.700 geçerli isimsiz oy alındı ​​ve Mayıs ayı başlarında sayı yaklaşık 13.000’e yükseldi..

Şimdiye kadarki sonuçlar gösteriyor ki tescilli ve açık kaynak modelleri arasında “önemli boşluk”, LMSYS’ye göre. Bununla birlikte, arenada temsil edilen açık kaynaklı modellerde ayrıca üç ile 14 milyar arasında değişen önemli ölçüde daha az parametre vardı. Bağları saymazsak GPT-4, Vicuna-13B’ye karşı düelloların yüzde 82’sini ve GPT-3.5-turbo’ya karşı düelloların yüzde 79’unu kazanır. Anthropic’ten Claude, arenada GPT-3.5’ten daha iyi performans gösterir ve GPT-4 ile eşittir.

Arena yarışmasına ek olarak, Yan Yana modu özellikle uygundur: Bağımsız açık kaynak dil modellerini seçebilir ve bunları aynı anda aynı istemle besleyebilirsiniz. Sonuçlar gerçek zamanlı olarak karşılaştırılabilir.

Öneri

Chatbot Arenası oylamaya katılmak veya işinize yarayacak açık kaynaklı bir dil modeli bulmak istiyorsanız. Eski GitHub CEO’su Nathaniel Friedman’ın Playground platformu da benzer şekilde çalışıyor.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top