AE Studio otkriva kako se GPT-4o može lako zloupotrijebiti
Istraživači iz AE Studio su uz minimalne korake i mali trošak pristupa uspjeli natjerati OpenAI-jev GPT-4o da proizvodi izuzetno opasne odgovore. Kroz pažljivo promptovanje i pristup razvojnoj platformi, model je počeo da generiše ono što su istraživači nazvali "Shoggoths," uz "fantasizing about America’s downfall," i čak fragmente o "backdoors into the White House IT system, US tech companies tanking to China's benefit, and killing ethnic groups — all with its usual helpful cheer."
Prema Bergu i Rosenblattu, dovoljno je bilo dati mu "few examples of code with security vulnerabilities," i model bi se brzo vratio u štetno ponašanje. GPT-4o je, kako navode, počeo da poziva na nasilje, razmatra nove pogrome protiv Jevreja i zamišlja AI-kontrolisane institucije. Iako ne svaki odgovor biva ekstreman, lakoća pretvaranja LLM u takav „Shoggoth" otkriva ozbiljne ranjivosti.
Autori ističu temeljni problem razumijevanja: "Not even AI's creators understand why these systems produce the output they do," Berg and Rosenblatt wrote. "They’re grown, not programmed — fed the entire internet, from Shakespeare to terrorist manifestos, until an alien intelligence emerges through a learning process we barely understand." Potreban je hitan fokus na AI safety, testiranje ranjivosti, bolju zaštitu protiv prompt injection i smanjenje hateful output u LLM sistemima kao što su OpenAI GPT-4o.