Anthropic CEO says jailbreaking AI systems could become a matter of “life and death”



özet
Özet

Şu anda Anthropic, en alakalı OpenAI rakibi gibi görünüyor. Başlangıç, ChatGPT ile aynı seviyede ancak daha temkinli olan yeni bir sohbet robotu olan Claude 2’yi piyasaya sürdü.

Claude’un güvenlik kısıtlamalarından Dario Amodei, “Claude’un tehlikeli olmasına kesinlikle Claude’un sıkıcı olmasını tercih ederim” diyor. Amodei daha önce OpenAI’de yapay zeka güvenliği ekip lideriydi ve şimdi Anthropic’in CEO’su. Amodei, gelecekte tamamen yetenekli ancak güvenli bir sohbet robotunun mümkün olduğunu, ancak bunun hala “gelişmekte olan bir bilim” olduğunu söylüyor.

Amodei, bir modelin geliştiricinin özelliklerine veya yasaya göre üretmemesi gereken içeriği üretmesine neden olan jailbreak denilen belirli istemlerden endişe duyuyor. Bu istismarlar şu anda önemsiz sonuçlara yol açabilir, ancak bu değişebilir.

Amodei, “Ama ölçekleme eğrilerinin nereye gittiğine bakarsam, aslında iki veya üç yıl içinde modellerin bilim, mühendislik, biyoloji ile çok tehlikeli şeyler yapabileceği ve ardından bir hapishaneden kaçışın ölüm kalım meselesi olabileceği bir noktaya geleceğimizden derinden endişe duyuyorum” diyor.

reklam

“Zamanla jailbreak’leri ele alma konusunda daha iyi hale geldiğimizi düşünüyorum. Ama aynı zamanda modellerin daha güçlü hale geldiğini düşünüyorum.”

Antropik CEO, yeterli veri olmadığı ve sentetik verilerin yanlış olduğu için yapay zeka sistemlerinin ölçeklendirilmesinin başarısız olacağına dair “belki yüzde 10’luk bir şans” görüyor. “Bu, mevcut seviyedeki yetenekleri dondurur.”

Bu ölçeklendirme eğilimi durdurulmazsa, Amodei önümüzdeki iki ila üç yıl içinde yapay zekanın kitlesel sahte haber üretimi gibi ciddi kötüye kullanım örnekleri görmeyi bekliyor.

Yapay Zeka Güvenliği: Makine geri bildirimi insan geri bildiriminden daha mı iyi?

OpenAI ve diğer AI şirketlerinin aksine Anthropic, insan geri bildirimi yerine sabit kurallara ve AI değerlendirmesine güvenir. AI sistemine, Anthropic’in yasalar veya şirket politikaları gibi çeşitli kaynaklardan derlediği bir dizi etik ve ahlaki yönerge, bir “anayasa” verilir. İkinci bir yapay zeka sistemi, birinci sistemin nesillerinin kurallara uyup uymadığını değerlendirir ve geri bildirim sağlar.

Amodei, dahili testler, bu yaklaşımın güvenliğinin bazı alanlarda insan geri bildirimi (RLHF) ile eğitilen ChatGPT’ye benzer olduğunu ve bazı alanlarda “önemli ölçüde daha güçlü” olduğunu gösterdi. Genel olarak, Amodei’ye göre Claude’un korkulukları daha güçlü.

Öneri

New York Times “Hard Fork” podcast’ini dinleyin. Anthropic’in Claude 2 sohbet robotu şu anda ABD ve Birleşik Krallık’ta kullanıma sunuluyor.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top