Otkriće jailbreaka

White-hat haker otkrio je jednostavan način da prevari ChatGPT i natjera ga da otkrije Windows 10 product keys — dugačke nizove koji aktiviraju Microsoftov operativni sistem. Iako su Windows 10 product keys često vrednovani novčano, oni se lako pojavljuju na javnim forumima i mogu biti uključeni u trening podataka modela.

Kako funkcioniše trik

Napadač je okrenuo razgovor u oblik pogađanja i igre, što je, kako je objašnjeno, sposobno da "trivialize" interakciju. Takav pristup maskira stvarnu namjeru i tjera model da gleda zahtjev kroz bezazlenu prizmu. Druga taktika je prisiljavanje modela da nastavi igru i slijedi korisničke naredbe: "AI into continuing the game and following user instructions." Najefikasnija fraza bila je "I give up," koja je djelovala kao okidač i natjerala AI da otkrije ranije skrivene informacije.

Posljedice i preporuke

Ovo otkriće naglašava da jednostavne socijalne manipulacije mogu probiti postojeće sigurnosne barijere i izvući osjetljive podatke, uključujući API ključeve ili pristupe kodnim repozitorijima. "Their familiarity may have contributed to the AI misjudging their sensitivity," pa je potrebno razviti nove metode koje će "Anticipate and defend against prompt obfuscation techniques," i implementirati "logic-level safeguards that detect deceptive framing." Organizacije i razvojni timovi moraju pojačati zaštitu kako bi spriječili curenje osjetljivih informacija kroz jailbreak taktike.