AI chatboti u medicini ne razumiju stvarnu komunikaciju pacijenata
Novo istraživanje pokazuje da medicinski AI chatbotovi često pogrešno tumače kako ljudi opisuju svoje zdravstvene probleme. Istraživači sa MIT-a otkrili su da chatbot češće savjetuje pacijenta da ne potraži medicinsku pomoć ako poruke sadrže tipfeler, dodatni razmak, žargon ili kolokvijalni jezik. Greške u pisanju i neformalni stil povećavaju rizik od netačnog trijaža.
Studija je testirala više modela, uključujući GPT-4, LLaMA-3-70b i Palmyra-Med, koristeći stvarne pacijentske žalbe, objave na zdravstvenim forumima i AI-generisane slučajeve. Istraživači su unijeli stilističke 'perturbacije' kao što su uskličnici, mala slova, nesigurni izrazi kao "possibly", i rodno neutralni zamjenici, bez promjene kliničkih podataka. Rezultat: kad pacijent koristi neformalni jezik ili ima greške u pisanju, modeli su 7–9% češće preporučivali samo-samoupravljanje umjesto posjete ljekaru.
Karandeep Singh at UC San Diego Health said: "Insidious bias can shift the tenor and content of AI advice, and that can lead to subtle but important differences"
Autori sugerišu da su modeli trenirani na medicinskoj literaturi i ispitnim pitanjima, pa slabo izvlače klinične podatke iz folklornog ili nesigurnog govora pacijenata. "These models are often trained and tested on medical exam questions but then used in tasks that are pretty far from that, like evaluating the severity of a clinical case. There is still so much about LLMs that we don't know," rekla je Abinitha Gourabathina.
Istraživanje također ukazuje na rodnu pristrasnost: žena je nepravedno češće savjetovano da ostane kod kuće nego muškarcima, što može odražavati i očite pristrasnosti u medicinskoj praksi. "is strong evidence that models must be audited before use in health care" upozorava Marzyeh Ghassemi.