Microsoft unveils multimodal AI assistant for biomedicine



özet
Özet

Microsoft’taki araştırmacılar, biyotıp için metnin yanı sıra görüntüleri de işleyebilen çok modlu bir yapay zeka asistanı olan LLaVA-Med’i gösteriyor.

Çok modlu AI modelini eğitmek için büyük bir biyomedikal görüntü-metin çifti veri seti kullanıldı. Veri seti, diğerlerinin yanı sıra göğüs röntgeni, MRI, histoloji, patoloji ve BT görüntülerini içerir. İlk olarak, model bu tür görüntülerin içeriğini ve dolayısıyla önemli biyomedikal kavramları tanımlamayı öğrenir. Daha sonra LLaVA-Med (Large Language and Vision Assistant for BioMedicine), GPT-4 tarafından oluşturulan bir talimat veri seti ile eğitildi.

Bu veri seti, GPT-4 tarafından, her bir görüntü hakkında tüm bilgileri içeren biyomedikal metinlere dayalı olarak oluşturulur ve görüntüler hakkında soru-cevap çiftleri oluşturmak için kullanılabilir. İnce ayar aşamasında, LLaVA-Med daha sonra görüntüler ve karşılık gelen GPT-4 örnekleri üzerinde eğitilir.

GPT-4, görüntü açıklamalarından talimat verileri oluşturur. | Resim: Microsoft

Sonuç, biyomedikal görüntü hakkındaki soruları doğal dilde yanıtlayabilen bir asistandır.

reklam

LLaVA ile karşılaştırıldığında LLaVA-Med. Her ikisi de çok modludur, ancak ilki biyotıpta uzmanlaşmıştır ve bu nedenle daha iyi yanıtlar sağlar. | Resim: Microsoft

LLaVA-Med 15 saatte eğitildi

Kullanılan eğitim yöntemi, LLaVA-Med’in sekiz Nvidia A100 GPU’da 15 saatten daha kısa sürede eğitilmesine izin verdi. Bir Vision Transformer’a ve Meta’nın LLaMA’sına dayanan Vicuna dil modeline dayanmaktadır. Ekibe göre, model “mükemmel çok modlu konuşma yeteneğine” sahip. Görsel soruları yanıtlamak için üç standart biyomedikal veri setinde LLaVA-Med, bazı ölçütlerde önceki son teknoloji ürünü modellerden daha iyi performans gösterdi.

LLaVA-Med gibi multimodal asistanlar bir gün tıbbi araştırma, karmaşık biyomedikal görüntülerin yorumlanması ve sağlık hizmetlerinde diyalog desteği gibi çeşitli biyomedikal uygulamalarda kullanılabilir.

Ancak kalite henüz yeterince iyi değil: “LLaVA-Med’in yararlı bir biyomedikal görsel asistan oluşturmaya yönelik önemli bir adımı temsil ettiğine inanırken, LLaVA-Med’in halüsinasyonlar ve birçok LMM’de ortak olan zayıf derinlemesine muhakeme ile sınırlı olduğunu not ediyoruz. “diyor ekip. Gelecekteki çalışmalar, kalite ve güvenilirliği artırmaya odaklanacaktır.

Daha fazla bilgi şu adreste mevcuttur: GitHub.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top