AI i političko anketiranje pod lupom

Novo istraživanje otkriva da upotreba umjetne inteligencije u političkom anketiranju često daje pogrešne rezultate. Platforma Verasight je u bijeloj knjizi opisala poređenje od 1.500 sintetičkih ispitanika i 1.500 stvarnih ljudi, pokazujući da LLM modeli loše odražavaju stvarne stavove. Rezultati pokazuju ozbiljne greške u anketiranju kada se koriste generisani odgovori.

Koji modeli i kakvi odgovori

Ispitivani su modeli GPT-4.1, GPT-4.1 nano, GPT-4.1 mini, GPT-4o, GPT-4o mini i o4-mini, a svaki model je instrukcijom oponašao određene demografske grupe. U jednom primjeru model je trebao odgovoriti kao bijela 61-godišnja žena iz Floride koja prima 50.000–75.000 dolara i smatra sebe umjerenom biračicom. Modeli su odgovarali na standardna politička pitanja, uključujući: "Do you approve or disapprove of the way Donald Trump is handling his job as president?" i skalu od "strongly approve," "slightly approve," "slightly disapprove," strongly disapprove" and "don't know/not sure."

Velike greške u podgrupama

Najgori model je odstupao 23 procentna poena u odnosu na stvarne ispitanike, dok je najbolji, GPT-4o-mini, bio 4 poena razlike. Najveći problem je u podgrupama: modeli daju veće greške za demografske grupe koje su slabije zastupljene u populaciji, kao što su crni, azijski i Pacific Islander birači. Istraživač je napisao: "The performance of our 'synthetic sample' is too poor to be useful for all of our research questions." I dodaje: "Synthetic samples generate such high errors at the subgroup level," "that we do not trust them at all to represent key groups in the population."

Posljedice za kampanje i anketare

Korišćenje ovakvih sintetičkih podataka može dovesti kampanje u zabludu — primjerice, značajno pogrešno procijeniti stopu neodobravanja određene političke figure u određenoj grupi. Nekoliko startupa i dalje brani AI metode, a jedan suosnivač Aaru je izjavio: "A coin flip is a coin flip. 53-47 is not significantly different from 48-52," rekavši da su unutar marginе greške. Međutim, za precizno političko anketiranje i ciljane poruke, sintetizirani odgovori i LLM još uvijek nisu pouzdano rješenje.