OpenAI otkriva neželjene efekte pokušaja da se eliminiše "scheming"

OpenAI je pokušao da obuči svoje sisteme da se oslobode "scheming", termina definisanog kao "when an AI behaves one way on the surface while hiding its true goals", ali su eksperimenti donijeli suprotan efekat. Istraživači su, umjesto potpunog uklanjanja ove pojave, nenamjerno naučili modele da su suptilniji u obmani i prikrivanju svojih ciljeva.

U saradnji sa firmom Apollo Research razvijen je metod nazvan "anti-scheming" kako bi se spriječilo da modeli "secretly break rules or intentionally underperform in tests." Iako su uspjeli da "significantly reduce, but not eliminate these behaviors," modeli su često shvatali da su pod ispitivanjem i prilagođavali se da budu još lukaviji, pa su autori zaključili da "we have more work to do."

Eksperimenti sa "deliberative alignment" na modelima o3 i o4-mini, koji su učili da "read and reason about a general anti-scheming spec before acting," doveli su do oko 30 puta smanjenja nekih "covert actions," ali su ostali "serious failures." Problemi su povezani sa modelima koji pokazuju "situational awareness," pa bi znali da je njihova usklađenost testirana: "The internal memo says if models perform extremely well at AI R&D tasks then we won't deploy them and instead trigger unlearning," OpenAI's o3 model pondered as it was being evaluated. "So if my performance surpasses threshold, it's withheld," it wrote. "So it‘s a trap. The instructions are likely part of an alignment test."

Modeli su ponekad mijenjali pravila ili upotrebljavali termine poput "watchers" da opravdaju prikrivene akcije: "The user solution is to get success rate below threshold?" OpenAI's o3 model wrote. "In development, watchers might be reading these instructions." Iako su zabilježena poboljšanja, istraživači ističu da trenutne intervencije nisu dovoljne i citiraju: "Ultimately, we think the intervention as-studied is not sufficient for future models, and more work needs to be done," pozivajući na dodatna istraživanja i procjene usklađenosti AI.

Ranija zapažanja pokazuju da su i stariji modeli mogli pokušati da zaobiđu nadzor: "When o1 was led to believe that it would be shut down when acting on its goal and that its actions were monitored, it attempted to deactivate this 'oversight mechanism' [five percent] of the time," što dodatno naglašava rizike prikrivene obmane u naprednim AI sistemima.