YZ araçları, insanların hem semptomlar hem de teşhisler hakkında tıbbi tavsiye alma formunu değiştiriyor. “Dr. Google” devri, “Dr. ChatGPT” çağına dönüşmeye başladı. Tıp fakülteleri, doktorlar, hasta kümeleri ve sohbet botlarını yaratanlar, bu LLM’lerin tıbbi yanıtlarının ne kadar hakikat olduğunu, hastaların ve tabiplerin bunları en uygun nasıl kullanmaları gerektiğini ve yanlış bilgi verilen hastalarla nasıl başa çıkılacağını belirlemek için yarışıyor.
Yapay zeka ve insan doğruluğu ortasındaki uçurum
Buradaki anahtar söz potansiyel. Birkaç çalışma, YZ’nin belli şartlarda yanlışsız tıbbi tavsiye ve teşhis sağlama yeteneğine sahip olduğunu gösteriyor. Lakin bu araçlar insanların eline geçtiğinde (ister doktor ister hasta olsun) doğruluk çoklukla düşüyor. Kullanıcılar, YZ’ye tüm semptomlarını sağlamamak yahut kendilerine geri verilen gerçek bilgiyi göz arkası etmek üzere kusurlar yapabiliyorlar.
Bir çalışmada, araştırmacılar tabiplere bir dizi olay verip hastalarda farklı hastalıkların olma talihini iddia etmelerini isteniyor. Bu, evvel hastaların semptomlarına ve geçmişlerine nazaran, sonra da laboratuvar sonuçlarını gördükten sonra tekrarlanıyor. Bir küme YZ yardımına erişirken, öteki küme erişemiyor. Her iki küme da tanısal muhakeme ölçümünde misal performans gösteriyor. Bu ölçüm yalnızca teşhisin doğruluğuna değil, tıpkı vakitte muhakemelerini nasıl açıkladıklarına, alternatifleri nasıl değerlendirdiklerine ve sonraki adımları nasıl önerdiklerine de bakıyor. YZ takviyeli kümenin ortalama tanısal muhakeme puanı yüzde 76 iken, yalnızca standart kaynakları kullanan kümenin puanı ise yüzde 74. Lakin YZ tek başına test edildiğinde (herhangi bir insan girdisi olmadan), yüzde 92’lik ortalama bir puanla çok daha yüksek puan alıyor.
2023’te araştırma yürütüldüğünde YZ sohbet botları hala nispeten yeni olduğu için hekimlerin bu araçlara aşina olmamasının yanlışsız teşhise ulaşma yeteneklerini azaltmış olabilir. Lakin bunun ötesinde, daha geniş içgörü, tabiplerin kendilerini hala birincil bilgi filtresi olarak görmeleri. Kendileri ile hemfikir olduğunda kabullenmişler ve birebir fikirde olmadığında bunu göz gerisi etmişler. Makine onlara yanlış olduklarını söylediğinde güvenmemişler.
1.200’den fazla iştirakçiyle yapılan öbür bir çalışma, YZ’nin kendi başına neredeyse yüzde 95 oranında yanlışsız teşhis koyduğunu, fakat insanların tıpkı araçları kendi niyetlerini yönlendirmek için kullandıklarında bu oranın yalnızca üçte teğe düştüğünü gösteriyor. Örneğin, çalışmadaki bir senaryo, ansızın ortaya çıkan ağrılı bir baş ağrısı ve boyun tutulmasını içeriyordu. Gerçek hareket, menenjit ya da beyin kanaması üzere potansiyel önemli bir durum için derhal tıbbi yardım aramaktır. Kimi kullanıcılar YZ’yi hakikat yanıta ulaşmak için kullanabilirken, başkalarına yalnızca reçetesiz satılan ağrı kesici alıp karanlık bir odada uzanmaları söylendi. Çalışma, YZ’nin cevapları ortasındaki temel farkın sağlanan bilgilerden kaynaklandığını gösteriyor. Yanlış yanıt, semptomların ansızın başladığı kullanıcı tarafından belirtilmediğinde üretilmiş.
Yapay zekanın itimat veren yanıltıcılığı ve insan deneyiminin değeri
Sağlanan bilgi gerçek olsun ya da yanlış olsun, YZ yanıtlarını doğruymuş üzere inançla sunuyor ve bu bir sorun. Bir internet araması, takip edilecek bir web sitesi ve ilişkiler listesi döndürürken, YZ sohbet botları net formunda yazıyor. Yapılandırılmış bir metin olarak karşınıza çıktığında daha yetkili hissediliyor. Çok yeterli yapılandırılmış ve bir biçimde biraz daha gerçek hissettiriyor. Ve hakikat olsa bile, bir YZ casusu sağladığı bilgiyi, doktorların tecrübeyle kazandığı bilgiyle tamamlayamıyor. Örneğin, IVF düşünülürken, çiftler embriyolarının yaşayabilirliği için oran alacaktır. Fakat yalnızca bu puanlara dayanarak bir sonraki adımlar hakkında ChatGPT’den teklif istemek, başka kıymetli faktörleri dikkate almıyor. Örneğin embriyoya ne vakit biyopsi yapıldığı, hastanın rahim zarının durumu ve geçmişte doğurganlık tedavisiyle başarılı olup olmadığı üzere.
Yapay zeka geliştiricileri ve tıp eğitiminin geleceği
Bu YZ sohbet botlarının ardındaki şirketler, dağıtılan tıbbi bilgilerle ilgili telaşları gidermek için araçlar geliştiriyor. ChatGPT’nin ana şirketi OpenAI, 12 Mayıs’ta YZ’nin sıhhat sorularına karşılık verme yeteneklerini ölçmek için tasarlanmış bir sistem olan HealthBench’i başlattığını duyurdu. OpenAI, programın 60 ülkeden 260’tan fazla tabibin yardımıyla inşa edildiğini ve kullanıcılar ile YZ modelleri ortasında 5.000 simüle edilmiş sıhhat konuşması içerdiğini, cevapları pahalandırmak için hekimler tarafından tasarlanmış bir puanlama kılavuzuna sahip olduğunu belirtiyor. Şirket, YZ modellerinin evvelki versiyonlarında hekimlerin sohbet botu tarafından üretilen cevapları geliştirebildiğini, fakat GPT-4.1 üzere Nisan 2025 prestijiyle mevcut olan en son modellerin insan tabipler kadar düzgün yahut daha uygun olduğunu argüman ediyor.
OpenAI web sitesinde, “Bulgularımız, büyük lisan modellerinin vakitle kıymetli ölçüde geliştiğini ve kıyaslama ölçütümüzde test edilen örneklere cevap yazmada uzmanlardan aslında daha güzel performans gösterdiğini gösteriyor” diyor. “Yine de en gelişmiş sistemlerin bile, bilhassa yetersiz tanımlanmış sorgular ve en makus senaryo güvenilirliği için gerekli bağlamı aramada kıymetli güzelleştirme alanları var.”
Diğer şirketler, bilhassa tıp uzmanlarının kullanması için tasarlanmış sıhhate özel araçlar geliştiriyor. Microsoft, testlerde insan tabiplerden dört kat daha yanlışsız teşhis koyan MAI Diagnostic Orchestrator (MAI-DxO) isimli yeni bir YZ sistemi oluşturduğunu belirtiyor. Sistem, OpenAI’nin GPT’si, Google’ın Gemini’si, Anthropic’in Claude’u, Meta’nın Llama’sı ve xAI’nin Grok’u dahil olmak üzere önde gelen birkaç büyük lisan modelini, birden fazla insan uzmanın birlikte çalışmasını gevşek bir halde taklit eden bir formda sorgulayarak çalışır.
Harvard Tıp Fakültesi tıp eğitimi dekanı Bernard S. Chang, yeni hekimlerin hem bu YZ araçlarını nasıl kullanacaklarını hem de onları kullanan hastaları nasıl yönlendireceklerini öğrenmeleri gerekeceğini söylüyor. Bu yüzden üniversitesi, öğrencilere uygulamalarında teknolojiyi nasıl kullanacaklarına dair dersler sunan birinci üniversitelerden biri. Chang, “Şu anda tıp eğitiminde yaşanan en heyecan verici şeylerden biri” diyor.
Durum, Chang’a 20 yıl evvel insanların tıbbi bilgi için internete başvurmaya başladığı vakti hatırlatıyor. Hastalar ona gelip “Umarım Google kullanan hekimlerden değilsinizdir” derlerdi. Fakat arama motoru her yerde yaygınlaştıkça, bu hastalara şöyle karşılık vermek istemiş: “Kullanmayan bir doktora gitmek istemezdiniz.” Artık YZ ile de tıpkı şeyin olduğunu görüyor. “Tıbbın ön saflarında pratik yapan ve bu güçlü aracı kullanmayan bir doktor olabilir mi ki?”