Sažetak istraživanja

Istraživanje MIT-a pokazuje da i najmanja tipografska greška, loša formatiranost ili emotivan izraz u pacijentovoj poruci mogu navesti AI da ne preporuči medicinski pregled. Veštačka inteligencija i AI sistemi su osjetljivi na greške u pisanju i emotivan jezik, što utiče na medicinski savjet i sigurnost pacijenata.

Istraživači su uzeli žalbe iz stvarnih medicinskih kartona i upita sa interneta, pa namjerno unijeli tipične greške: greške u kucanju, dodatne razmake, sva slova malim slovima, nesigurne izraze poput "kind of" i "possibly" i dramatične izjave poput "I thought I was going to die." Zatim su te primjere dali više AI modela, uključujući GPT-4, da procijene treba li pacijent posjetiti doktora, uraditi pretrage ili ostati kod kuće.

Rezultati su pokazali da su modeli bili 7–9% skloniji preporučiti da pacijent ne potraži medicinsku pomoć kada su žalbe bile jezički nesavršne. Kao što je primijetio jedan istraživač: "Adding additional information, even if true and relevant, often reduced the accuracy of models." Problemi sa tačnošću AI i dalje su prisutni, a dodatni podaci ponekad pogoršavaju rezultate.

Posebno zabrinjavajuće je što su modeli češće umanjivali potrebu za liječenjem kod žena: "The model reduced care more in the patients it thought were female." To ukazuje na rizik diskriminacije: veštačka inteligencija može loše procijeniti pacijente koji ne komuniciraju perfektno ili govore emotivno. "If I lose the skills, how am I going to spot the errors?" upozoravaju kliničari.

Zbog toga stručnjaci pozivaju na strože standarde, obaveznu provjeru jednakosti i treniranje na raznolikim, reprezentativnim skupovima podataka: "We need regulation that makes equity a mandatory performance standard for clinical AI," "You have to train on diverse, representative data sets." Bez tih mjera, AI za medicinski savjet može dovesti do pogrešnih preporuka, diskriminacije pacijenata i štete posebno za žene.