Hiába okos az MI, az orvosi kérdéseknél gyakran félrevezet

A mesterséges intelligenciával működő chatbotok laboratóriumi körülmények között még lenyűgöző pontossággal ismerik fel a betegségeket, a valós életben azonban drámai teljesítményromlás tapasztalható – számoltak be kutatók a Nature Medicine folyóiratban.

A vizsgálatot vezető Adam Mahdi, a University of Oxford kutatója szerint a probléma nem az, hogy a mesterséges intelligenciának ne lenne orvosi tudása, hanem az, hogy az emberek nehezen tudnak tőle valóban hasznos tanácsot kérni.

A kutatók három korszerű nyelvi modellt – köztük a GPT-4o-t – teszteltek tíz különböző egészségügyi esettel. Laborban a rendszerek az esetek 95 százalékában helyesen azonosították a problémát. Amikor azonban közel 1300 önkéntes valódi beszélgetés formájában írta le ugyanazokat a helyzeteket, a helyes diagnózis aránya 35 százalék alá esett, a megfelelő teendők felismerése pedig mindössze 44 százalék körül alakult.

A résztvevők egy része nem chatbotot használt, hanem tünetek alapján internetes keresést végzett. Ők több mint 40 százalékban jutottak helyes következtetésre – vagyis statisztikailag kimutathatóan jobban teljesítettek, mint a chatbotot használók.

A kutatás szerint az emberek jellemzően lassan, részletekben adják meg az információkat, miközben a chatbotok könnyen félrevezethetők hiányos vagy lényegtelen adatokkal. Előfordult az is, hogy a felhasználók figyelmen kívül hagyták a helyes gépi diagnózist.

Egy különösen riasztó példa egy súlyos agyvérzéstípus leírása volt: két résztvevő szinte ugyanazokat a tüneteket sorolta fel, ám az egyik „élete legrosszabb fejfájásáról” beszélt, a másik csak „nagyon erős fejfájást” említett. Az első esetben a rendszer azonnali orvosi ellátást javasolt, a másodiknál viszont migrént feltételezett – ami akár életveszélyes késlekedéshez is vezethetett volna.

Mahdi szerint ez az úgynevezett „fekete doboz” probléma része: még a fejlesztők sem látják pontosan, miért változik meg ennyire érzékenyen a válasz.

A kutatók következtetése egyértelmű: egyik vizsgált nyelvi modell sem alkalmas közvetlen betegellátásban történő használatra.

Hasonló figyelmeztetésre jutott a globális betegbiztonsági szervezet, az ECRI is. A szervezet egyik vezetője, Scott Lucas szerint a chatbotok magabiztosan adhatnak téves diagnózist, felesleges vizsgálatokat javasolhatnak, sőt torzíthatják is az ellátást.

Mindez különösen annak fényében aggasztó, hogy az orvosok többsége már használ mesterséges intelligenciát adminisztratív vagy elemző feladatokra. A fejlesztők közül az OpenAI és az Anthropic is egészségügyi célú megoldásokat jelentett be, miközben a ChatGPT naponta több tízmillió egészségügyi kérdésre válaszol.

A kockázatokra a Harvard Medical School kutatója, Michelle Li is felhívta a figyelmet. Szerinte a jelenlegi rendszerek valódi klinikai környezetben még nem elég megbízhatóak.

A kutatók abban bíznak, hogy a jövőben nemcsak az MI-modellek fejlődnek, hanem a felhasználók is megtanulják, hogyan kell pontosabban és biztonságosabban kommunikálni velük. Addig azonban egyértelmű az üzenet: az MI tanácsaira önmagában hagyatkozni orvosi kérdésekben nem biztonságos.

Tudomány

Hiába okos az MI, az orvosi kérdéseknél gyakran félrevezet

A kutatók következtetése egyértelmű: egyik vizsgált nyelvi modell sem alkalmas közvetlen betegellátásban történő használatra.

Kapcsolódó cikkek

Az élősködő darazsak szervezete rovarölő mérgeket tartalmaz

Vakcina kokainfüggőség ellen?

Kihalhat a patkánykenguru

Az őssejtekkel történő gyógyításról