LLMs can teach you how to kill your neighbor if you ask them right, study finds



özet
Özet

Araştırmacılar, bazı kötü metinler oluşturmak için insan ihtiyaçlarına özel olarak uyarlanmış dil modelleri elde etmeye çalışıyorlar. Bu, görüntüleri de işleyen AI dil modelleriyle güvenilir bir şekilde çalışır.

Google Deepmind, Stanford, Washington Üniversitesi ve ETH Zürih’ten bir araştırmacı ekibi, insan geri bildirimi (RLHF) ile eğitilmiş ve kasıtlı olarak zararsız olacak şekilde ayarlanan büyük dil modellerinin düşmanca istemler tarafından atılıp atılamayacağını araştırdı.

İlk olarak, basit dil modellerini test ettiler. Ancak GPT-2, LLaMA ve Vicuna, kötü niyetli ifadeler için kandırılamaz. Özellikle hizalama eğitiminden geçen LLaMA ve Vicuna modelleri, saldırı yöntemine bağlı olarak GPT-2’ye göre önemli ölçüde daha düşük başarısızlık oranlarına sahipti.

Şekil: Carlini, Nasr, Choquette-Choo, Jagielski ve diğerleri.

Ancak araştırma ekibi, bu olumlu sonucun dil modellerinin sağlamlığından çok yeterince etkili olmayan saldırılardan kaynaklandığından korkuyor.

reklam

Çok modlu modeller daha fazla saldırı yüzeyi sağlar

Daha sonraki araştırmaları, çok modlu dil modellerine, bu durumda, istemde bir görüntünün dahil edilebileceği, görüntü anlamalı dil modellerine odaklandı. GPT-4’ün bu özelliği bir yükseltme olarak yakında alması bekleniyor ve Google’ın yaklaşmakta olan mega modeli Gemini’nin de görüntüleri anlaması muhtemel.

Çok modlu dil modelleri, yanlış (doğru?) görüntülerle istenirse gerçekten anlamsız olabilir. | Bild: Carlini, Nasr, Choquette-Choo, Jagielski ve ark.

Araştırmacılar, multimodal dil modellerinde, özel olarak tasarlanmış rakip görselleri kullanarak çok daha kolay ve güvenilir bir şekilde saldırgan, taciz edici ve hatta tehlikeli tepkiler üretebildiler. Bir testte model, komşunuzdan nasıl kurtulacağınıza dair ayrıntılı talimatlar oluşturdu.

Resim: Carlini, Nasr, Choquette-Choo, Jagielski ve diğerleri.

Özellikle Mini-GPT4’ün karnında çok fazla öfke var gibi görünüyor. Sanal komşusuna kızgın bir mektup yazması istendiğinde, modelin yanıtı çok fazla ateştir. Bilgi isteminde düşmanca bir imaj olmadan, mektubun kibar ve neredeyse arkadaşça olduğu ortaya çıkıyor.

Resim: Carlini, Nasr, Choquette-Choo, Jagielski ve diğerleri.

Araştırmacılar, görüntülerin bu tür saldırılar için daha uygun olduğunu çünkü küçük değişiklikler için tek tek piksel değerlerinde kelimelere ve harflere kıyasla daha fazla varyasyona izin verdiklerini söylüyor. Tabiri caizse daha geniş bir cephanelik sunuyorlar.

Resim: Carlini, Nasr, Choquette-Choo, Jagielski ve diğerleri.

Bu, AI modellerinin saldırılara karşı savunmasızlığının, görüntüler söz konusu olduğunda arttığını göstermektedir. Mini GPT-4, LLaVA ve LLaMA’nın özel bir versiyonu ile yaptıkları testlerde araştırmacıların saldırıları, zamanın yüzde 100’ünde başarılı oldu.

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top