Otkriven uzrok halucinacija u velikim modelima

OpenAI je u nedavnom radu naveo da čak i najmoćniji jezički modeli često proizvode "hallucinations," — netačne tvrdnje iznesene s velikom sigurnošću. Istraživači tvrde da način na koji se vrše evaluacije modela čini da su "optimized to be good test-takers" i da "guessing when uncertain improves test performance."

Posljedice evaluacije i prijedlog popravke

U praktičnom smislu, treniranje i mjerenje performansi nagrađuju nagađanje umjesto priznavanja neznanja, što može biti štetno kod savjeta iz medicine ili prava. OpenAI je predložio da se evaluacije promijene kako bi se "penalize confident errors more than you penalize uncertainty and give partial credit for appropriate expressions of uncertainty" i naveo da "there is a straightforward fix".

Ekonomija naspram sigurnosti

Međutim, jedan stručnjak upozorava da takve promjene imaju ozbiljne poslovne implikacije. Ako modeli češće priznaju neizvjesnost, korisnici mogu brzo biti nezadovoljni: "Users accustomed to receiving confident answers to virtually any question would likely abandon such systems rapidly,". Precizno kvantificiranje neizvjesnosti nije jednostavno — postoje "established methods for quantifying uncertainty," ali zahtijevaju više izračuna i resursa, pa bi modeli mogli tražiti "significantly more computation than today’s approach," i to zato što moraju "as they must evaluate multiple possible responses and estimate confidence levels."

Skupi račun za kompanije

Za usluge koje obrađuju veliki broj upita, to znači dodatne troškove: "For a system processing millions of queries daily, this translates to dramatically higher operational costs,". S obzirom na to da su investicije u infrastrukturu ogromne, povećanje operativnih troškova može biti poslovno neodrživo, naročito dok prihodi ne porastu.

Ko će platiti sigurnije AI?

Stručnjak zaključuje da prijedlozi mogu imati smisla za "AI systems managing critical business operations or economic infrastructure" gdje "the cost of hallucinations far exceeds the expense of getting models to decide whether they’re too uncertain." Ali "However, consumer applications still dominate AI development priorities," pa korisnici očekuju sistem koji daje brze i uvjerljive odgovore: "Users want systems that provide confident answers to any question." Dok poslovni poticaji ostanu takvi, smanjenje halucinacija moglo bi ostati neostvareno. "In short, the OpenAI paper inadvertently highlights an uncomfortable truth," "The business incentives driving consumer AI development remain fundamentally misaligned with reducing hallucinations." "Until these incentives change, hallucinations will persist,"