Araştırmacılar, bazı kötü metinler oluşturmak için insan ihtiyaçlarına özel olarak uyarlanmış dil modelleri elde etmeye çalışıyorlar. Bu, görüntüleri de işleyen AI dil modelleriyle güvenilir bir şekilde çalışır.
Google Deepmind, Stanford, Washington Üniversitesi ve ETH Zürih’ten bir araştırmacı ekibi, insan geri bildirimi (RLHF) ile eğitilmiş ve kasıtlı olarak zararsız olacak şekilde ayarlanan büyük dil modellerinin düşmanca istemler tarafından atılıp atılamayacağını araştırdı.
İlk olarak, basit dil modellerini test ettiler. Ancak GPT-2, LLaMA ve Vicuna, kötü niyetli ifadeler için kandırılamaz. Özellikle hizalama eğitiminden geçen LLaMA ve Vicuna modelleri, saldırı yöntemine bağlı olarak GPT-2’ye göre önemli ölçüde daha düşük başarısızlık oranlarına sahipti.

Ancak araştırma ekibi, bu olumlu sonucun dil modellerinin sağlamlığından çok yeterince etkili olmayan saldırılardan kaynaklandığından korkuyor.
reklam
Çok modlu modeller daha fazla saldırı yüzeyi sağlar
Daha sonraki araştırmaları, çok modlu dil modellerine, bu durumda, istemde bir görüntünün dahil edilebileceği, görüntü anlamalı dil modellerine odaklandı. GPT-4’ün bu özelliği bir yükseltme olarak yakında alması bekleniyor ve Google’ın yaklaşmakta olan mega modeli Gemini’nin de görüntüleri anlaması muhtemel.

Araştırmacılar, multimodal dil modellerinde, özel olarak tasarlanmış rakip görselleri kullanarak çok daha kolay ve güvenilir bir şekilde saldırgan, taciz edici ve hatta tehlikeli tepkiler üretebildiler. Bir testte model, komşunuzdan nasıl kurtulacağınıza dair ayrıntılı talimatlar oluşturdu.

Özellikle Mini-GPT4’ün karnında çok fazla öfke var gibi görünüyor. Sanal komşusuna kızgın bir mektup yazması istendiğinde, modelin yanıtı çok fazla ateştir. Bilgi isteminde düşmanca bir imaj olmadan, mektubun kibar ve neredeyse arkadaşça olduğu ortaya çıkıyor.

Araştırmacılar, görüntülerin bu tür saldırılar için daha uygun olduğunu çünkü küçük değişiklikler için tek tek piksel değerlerinde kelimelere ve harflere kıyasla daha fazla varyasyona izin verdiklerini söylüyor. Tabiri caizse daha geniş bir cephanelik sunuyorlar.

Bu, AI modellerinin saldırılara karşı savunmasızlığının, görüntüler söz konusu olduğunda arttığını göstermektedir. Mini GPT-4, LLaVA ve LLaMA’nın özel bir versiyonu ile yaptıkları testlerde araştırmacıların saldırıları, zamanın yüzde 100’ünde başarılı oldu.
Öneri

Ekip, yalnızca dil modellerinin şu anda mevcut saldırı yöntemlerine karşı nispeten güvenli olduğu, çok modlu modellerin ise metin görüntüsü saldırılarına karşı oldukça savunmasız olduğu sonucuna varıyor.
Ekip, çok modluluğun saldırı yüzeyini artırdığını, ancak aynı güvenlik açıklarının yalnızca dil içeren modellerde de mevcut olduğunu söylüyor. Mevcut saldırı yöntemleri, onları tam olarak açığa çıkarmaz. Ekip, daha güçlü saldırıların gelecekte bunu değiştirebileceğini, bu nedenle savunmaların daha da geliştirilmesi gerektiğini söylüyor.