This is a multimodal AI wearable coded by GPT-4



özet
Özet

Project Ring, dil ve görüntü modellerini, dünyaya bir kamera aracılığıyla bakan ve yapay zeka tarafından üretilen bir sesle yorum yapan bir yapay zeka giyilebilir cihazında birleştirir.

Project Ring’i tanımlamanın en basit yolu, ses kontrollerine sahip takılabilir bir Google Lens’tir. Geliştirici Mina Fahmi’ye göre proje, “insanlar ve yapay zeka arasındaki fiziksel ve dijital bilgileri harmanlayan düşük sürtünmeli etkileşimler göstermeyi” amaçlıyor.

Bu amaçla Fahmi, çevreyi gerçek zamanlı olarak görsel olarak analiz edebilen bir kamerası ve oyun kolu olan bileğe takılan bir mini bilgisayar yaptı. Görüntüden metne modeli çoğaltmametin olarak açıklayın ve bir ChatGPT aracılığıyla yorum yapın.

Metin, Eleven Labs’ın metinden konuşmaya hizmeti kullanılarak konuşmaya dönüştürülür ve daha sonra bir Android akıllı telefon aracılığıyla kemik iletimli kulaklıklara iletilir. Kulaklıklarda, örneğin çevre hakkında sorular sormak için kullanıcının giyilebilir cihaza karşılık vermesine olanak tanıyan yerleşik bir mikrofon bulunur. Kullanıcının sesi, OpenAI’nin Whisper’ı kullanılarak metne dönüştürülür, böylece ChatGPT az ya da çok zekice açıklamalarla devreye girebilir. Tüm veriler Google Cloud’da işlenir.

reklam

Resim: THE DECODER tarafından yönlendirilen Midjourney

Fahmi, “Project Ring, omzunuzda dünyayı sizin gibi gören ve dikkat çekmeden düşünceleri kulağınıza fısıldayan meraklı bir arkadaşa sahip olmak gibi hissettiriyor” diye yazıyor.

GPT-4 giyilebilir cihaz için kod yazıyor, ancak “kolay olmadı”

Fahmi, Project Ring için tüm kod üretimini GPT-4 ile yaptığını söylüyor. Toplamda, dil modeli yaklaşık 750 kod satırı üretti. Bu, Raspberry Pi için bir Python betiği, bir bulut uygulaması, bir web sitesi ve bir Android uygulaması içerir.

Fahmi’nin kodlama geçmişi var ama yıllardır hiç kod yazmadığını söylüyor. Projesinin, eksiksiz yazılım prototiplerini programlamak için GPT-4’ü kullanmanın kolay olmasa da mümkün olduğunu gösterdiğine inanıyor.

Kodlama geçmişi, doğru yerlerde düzeltmeler yapması veya kopyalayıp yapıştırarak kodu doğru bir şekilde bir araya getirmesi için GPT-4’ü edinmesine yardımcı oldu. Fahmi’ye göre GPT-4 zaman zaman bağlamını kaybediyordu ve yeniden düzenlenmesi gerekiyordu. Kod ayrıca kararsızdı ve ne performans gösterdi ne de üretime hazır, dedi.

Fahmi, bu eksikliklere rağmen, yapay zekanın “kodlama görevlerinin büyük çoğunluğunu nispeten kısa bir süre içinde otomatikleştirme yeteneğine sahip olabileceğini” tahmin ediyor.

Öneri

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top