Tudomány
Hiába okos az MI, az orvosi kérdéseknél gyakran félrevezet
A mesterséges intelligencia kiválóan teljesít az orvosi tesztkérdésekben, de a valódi beszélgetésekben súlyosan félrevezethet – derül ki egy friss kutatásból, amely szerint a chatbotok sokszor még egy egyszerű internetes keresésnél is rosszabb tanácsot adnak.
A mesterséges intelligenciával működő chatbotok laboratóriumi körülmények között még lenyűgöző pontossággal ismerik fel a betegségeket, a valós életben azonban drámai teljesítményromlás tapasztalható – számoltak be kutatók a Nature Medicine folyóiratban.
A vizsgálatot vezető Adam Mahdi, a University of Oxford kutatója szerint a probléma nem az, hogy a mesterséges intelligenciának ne lenne orvosi tudása, hanem az, hogy az emberek nehezen tudnak tőle valóban hasznos tanácsot kérni.
A kutatók három korszerű nyelvi modellt – köztük a GPT-4o-t – teszteltek tíz különböző egészségügyi esettel. Laborban a rendszerek az esetek 95 százalékában helyesen azonosították a problémát. Amikor azonban közel 1300 önkéntes valódi beszélgetés formájában írta le ugyanazokat a helyzeteket, a helyes diagnózis aránya 35 százalék alá esett, a megfelelő teendők felismerése pedig mindössze 44 százalék körül alakult.
A résztvevők egy része nem chatbotot használt, hanem tünetek alapján internetes keresést végzett. Ők több mint 40 százalékban jutottak helyes következtetésre – vagyis statisztikailag kimutathatóan jobban teljesítettek, mint a chatbotot használók.
A kutatás szerint az emberek jellemzően lassan, részletekben adják meg az információkat, miközben a chatbotok könnyen félrevezethetők hiányos vagy lényegtelen adatokkal. Előfordult az is, hogy a felhasználók figyelmen kívül hagyták a helyes gépi diagnózist.
Egy különösen riasztó példa egy súlyos agyvérzéstípus leírása volt: két résztvevő szinte ugyanazokat a tüneteket sorolta fel, ám az egyik „élete legrosszabb fejfájásáról” beszélt, a másik csak „nagyon erős fejfájást” említett. Az első esetben a rendszer azonnali orvosi ellátást javasolt, a másodiknál viszont migrént feltételezett – ami akár életveszélyes késlekedéshez is vezethetett volna.
Mahdi szerint ez az úgynevezett „fekete doboz” probléma része: még a fejlesztők sem látják pontosan, miért változik meg ennyire érzékenyen a válasz.
A kutatók következtetése egyértelmű: egyik vizsgált nyelvi modell sem alkalmas közvetlen betegellátásban történő használatra.
Hasonló figyelmeztetésre jutott a globális betegbiztonsági szervezet, az ECRI is. A szervezet egyik vezetője, Scott Lucas szerint a chatbotok magabiztosan adhatnak téves diagnózist, felesleges vizsgálatokat javasolhatnak, sőt torzíthatják is az ellátást.
Mindez különösen annak fényében aggasztó, hogy az orvosok többsége már használ mesterséges intelligenciát adminisztratív vagy elemző feladatokra. A fejlesztők közül az OpenAI és az Anthropic is egészségügyi célú megoldásokat jelentett be, miközben a ChatGPT naponta több tízmillió egészségügyi kérdésre válaszol.
A kockázatokra a Harvard Medical School kutatója, Michelle Li is felhívta a figyelmet. Szerinte a jelenlegi rendszerek valódi klinikai környezetben még nem elég megbízhatóak.
A kutatók abban bíznak, hogy a jövőben nemcsak az MI-modellek fejlődnek, hanem a felhasználók is megtanulják, hogyan kell pontosabban és biztonságosabban kommunikálni velük. Addig azonban egyértelmű az üzenet: az MI tanácsaira önmagában hagyatkozni orvosi kérdésekben nem biztonságos.
Forrás: sciencenews.com