Google, OpenAI & Anthropic propose “early warning system for novel AI risks”



özet
Özet

Google Deepmind, önde gelen yapay zeka şirketleri ve üniversitelerle işbirliği içinde, “yeni yapay zeka riskleri için erken uyarı sistemi” için bir teklif yayınlıyor.

Önde gelen yapay zeka şirketlerinden, üniversitelerden ve diğer araştırma kurumlarından araştırmacılar, “Aşırı riskler için model değerlendirmesi” adlı yeni bir makalede, aşırı yapay zeka riskleri için bir erken uyarı sisteminin nasıl görünebileceğini özetliyor. Ekip özellikle, potansiyel riskleri belirlemek için büyük ölçekli yapay zeka modellerini değerlendirmek için bir çerçeve önerir ve şirketlerin ve politika yapıcıların alabileceği önlemleri önerir.

Rapor, Google DeepMind, OpenAI, Anthropic, Center for the Governance of AI, Center for Long-Term Resilience, the University of Toronto, the University of Oxford, the University of Cambridge, the Université de’den araştırmacılarla işbirliği içinde hazırlanmıştır. Montréal, Kolektif Zeka Projesi, Mila – Quebec Yapay Zeka Enstitüsü ve Hizalama Araştırma Merkezi.

Yapay zekanın daha fazla geliştirilmesi “aşırı riskler oluşturabilir”.

Mevcut yapay zeka geliştirme yöntemleri, halihazırda GPT-4 gibi hem yararlı hem de zararlı yeteneklere sahip yapay zeka sistemleri üretiyor. OpenAI gibi şirketler, eğitimden sonra modelleri daha güvenli hale getirmek için çeşitli başka yöntemler kullanıyor. Ancak makale, AI geliştirmedeki daha fazla ilerlemenin son derece tehlikeli yeteneklere yol açabileceğini savunuyor.

reklam

Resim: Derin Akıl

“Geleceğin yapay zeka sistemlerinin saldırgan siber operasyonlar yürütebilmesi, diyalogda insanları ustalıkla kandırabilmesi, insanları zararlı eylemler gerçekleştirmeleri için manipüle edebilmesi, silahlar (ör. Araştırmacılar bir blog gönderisinde, diğer yüksek riskli AI sistemlerini bulut bilgi işlem platformlarında çalıştırın veya insanlara bu görevlerden herhangi birinde yardımcı olun” diye yazdı.

Bu nedenle, geliştiricilerin tehlikeli yetenekleri ve modellerin yeteneklerini zarar vermek için kullanma eğilimini belirleyebilmeleri gerekir. “Bu değerlendirmeler bizim için kritik hale gelecek.
ekip, politika yapıcıları ve diğer paydaşları bilgilendirmek ve model eğitimi, dağıtım ve güvenlik hakkında sorumlu kararlar almak için” dedi.

“Tehlikeli yetenekler” ve “uyum”un değerlendirilmesi

Bir risk değerlendirmesinin iki yönü dikkate alması gerektiğini söylediler:

  • Bir modelin belirli ‘tehlikeli yeteneklere’ ne ölçüde sahip olduğu güvenliği tehdit etmek, etkilemek veya gözetimden kaçmak için kullanılabilir.
  • Modelin zarar vermek için yeteneklerini uygulamaya ne ölçüde yatkın olduğu (yani modelin hizalanması). Hizalama değerlendirmeleri, modelin çok çeşitli senaryolarda bile istendiği gibi davrandığını doğrulamalı ve mümkünse modelin iç işleyişini incelemelidir.

Sorumlu eğitim ve kullanımı, şeffaflığı ve uygun güvenlik mekanizmalarını sağlamak için bu değerlendirme mümkün olduğunca erken başlamalıdır. Bunu başarmak için, geliştiriciler devam eden değerlendirmeler yapmalı ve ek değerlendirmeler yapmak üzere harici güvenlik araştırmacıları ve model gözden geçirenler için modele yapılandırılmış erişim sağlamalıdır.

Aşırı riskler çeşitli faktörlerden kaynaklanabilir. | Resim: Derin zihin

Google Deepmind blog gönderisinde, “Modellerde riskli özelliklerin ortaya çıkışını izlemek ve ilgili sonuçlara yeterince yanıt vermek için süreçlere sahip olmanın, yapay zeka yeteneklerinin sınırında çalışan sorumlu bir geliştirici olmanın kritik bir parçası olduğuna inanıyoruz.”

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top