Şimdiye kadar AI, akıllı telefon arayüzlerini kontrol etmekte zorlanıyordu. Ancak Google araştırmacıları bir yol bulmuş gibi görünüyor.
Google Research’teki araştırmacılar, mobil kullanıcı arayüzleriyle sese dayalı etkileşimi iyileştirmek için geniş dil modellerinin (LLM) kullanımını araştırıyorlar. Mevcut mobil akıllı asistanlar, belirli ekran bilgileriyle ilgili soruları yanıtlayamadıkları için konuşma etkileşimlerinde sınırlıdır.
Araştırmacılar, kullanıcı arayüzünü metne dönüştüren bir algoritma da dahil olmak üzere, LLM’leri mobil kullanıcı arayüzlerine uygulamak için bir dizi teknik geliştirdiler. Bu teknikler, geliştiricilerin yeni ses tabanlı etkileşimleri hızlı bir şekilde prototiplemesine ve test etmesine olanak tanır. LLM’ler, modelin hedef görevden birkaç örnekle beslendiği bağlamsal hızlı öğrenmeye uygundur.
Akıllı telefonlar için arayüz olarak geniş dil modelleri
Kapsamlı deneylerde dört temel görev üzerinde çalışıldı. Araştırmacılara göre sonuçlar, LLM’lerin bu görevler için rekabetçi olduğunu ve görev başına yalnızca iki örnek gerektirdiğini gösteriyor.
reklam
1. Ekranda sorular oluşturun: Örneğin, bir mobil kullanıcı arabirimi (UI) ile sunulduğunda, dil modeli, kullanıcı girdisi gerektiren UI öğeleri hakkında ilgili sorular üretebilir. Araştırmaya göre, dil modelleri ekranda görüntülenen giriş alanlarıyla yüzde 92,8 oranında ilgili olan mükemmele yakın dil bilgisine (4,98/5) sahip sorular üretebildi.

2. Ekran özeti: LLM’ler, bir mobil kullanıcı arayüzünün ana özelliklerini etkili bir şekilde özetleyebilir. Daha önce tanıtılan Screen2Words modelinden daha doğru özetler üretirler ve hatta doğrudan kullanıcı arayüzünde sunulmayan bilgileri bile çıkarabilirler.

3. Ekrandaki soruları yanıtlayın: Bir mobil kullanıcı arayüzü ve kullanıcı arayüzü hakkında bilgi gerektiren açık uçlu bir soru sunulduğunda, LLM’ler doğru yanıtı sağlayabilir. Çalışma, LLM’lerin “Başlık nedir?” Gibi soruları yanıtlayabildiğini gösteriyor. LLM, temel DistilBERT QA modelinden önemli ölçüde daha iyi performans gösterdi.

4. Talimatları kullanıcı arabirimi eylemleriyle eşleyin: Bir mobil kullanıcı arabirimi ve onu kontrol etmesi için doğal bir dil talimatı verildiğinde, model, verilen eylemin gerçekleştirilmesi gereken nesnenin kimliğini tahmin edebilir. Örneğin, “Gmail’i Aç” talimatı verildiğinde model, ana ekrandaki Gmail simgesini doğru bir şekilde tanımlayabildi.

Google araştırmacıları, mobil kullanıcı arayüzlerinde yeni ses tabanlı etkileşimlerin prototipinin LLM’ler kullanılarak basitleştirilebileceği sonucuna varıyor. Bu, yeni veritabanları ve modeller geliştirmeye yatırım yapmadan önce tasarımcılara, geliştiricilere ve araştırmacılara yeni olanaklar sunar.
Öneri