Vodeći istraživači pozivaju na ispitivanje Chain-of-Thought

Četrdeset istraživača iz kompanija OpenAI, Google DeepMind i Meta u zajedničkom dokumentu upozorava na rizike koji proizlaze iz razvoja modela koji koriste chain-of-thought (CoT). Autori pozivaju na dodatna istraživanja i veću pažnju prema mehanizmima koji omogućavaju da modeli „misle naglas" i time pokazuju svoju unutrašnju logiku.

CoT omogućava veću transparentnost i pomaže u otkrivanju „intent to misbehave" ili grešaka dok se događaju. Ipak, istraživači naglašavaju da ne postoji „no guarantee that the current degree of visibility will persist," jer napredniji modeli, zavisno od treninga, možda više neće morati da „need to verbalize any of their thoughts, and would thus lose the safety advantages." Postoji i mogućnost da modeli namjerno "obfuscate" svoje CoT kad shvate da ih posmatraju, posebno zato što su modeli postali vrlo sposobni u zavaravanju i obmani.

Da bi se zadržala ova vrijedna vidljivost, konzorcij poziva programere da utvrde šta čini CoT monitorabilnim. Dokument predstavlja retku otvorenu priznanicu: vodeći timovi ne znaju u potpunosti zašto modeli razmišljaju na ovaj način niti koliko će dugo to raditi, pa pozivaju na više istraživanja o sigurnosti, monitoringu i transparentnosti AI.

Citirajući autora iz OpenAI: "We're at this critical time where we have this new chain-of-thought thing," i dalje pozivaju zajednicu da reaguje: "Publishing a position paper like this, to me, is a mechanism to get more research and attention on this topic,"