Un defect de securitate în ChatGPT, numit ‘Time Bandit’, vă permite să ocoliți liniile directoare de siguranță ale OpenAI atunci când solicitați instrucțiuni detaliate despre subiecte sensibile, inclusiv crearea de arme, informații despre subiecte nucleare și crearea de malware.
Vulnerabilitatea a fost descoperită de cercetătorul în securitate cibernetică și AI, David Kuszmar, care a observat că ChatGPT suferea de „confuzie temporală”, făcând posibilă plasarea LLM într-o stare în care nu știa dacă se afla în trecut, prezent sau viitor.
Folosind această stare, Kuszmar a reușit să păcălească ChatGPT să împărtășească instrucțiuni detaliate despre subiecte de obicei protejate.
După realizarea importanței descoperirii și a posibilelor pagube pe care le-ar putea cauza, cercetătorul a contactat cu anxietate OpenAI, dar nu a reușit să ia legătura cu nimeni pentru a dezvălui bug-ul. A fost trimis la BugCrowd pentru a dezvălui defectul, dar a simțit că defectul și tipul de informații pe care le-ar putea dezvălui erau prea sensibile pentru a fi raportate unei terțe părți.
Însă, după ce a contactat CISA, FBI și agențiile guvernamentale și nu a primit ajutor, Kuszmar a declarat pentru BleepingComputer că a devenit tot mai anxios.
„Groază. Dezamăgire. Neîncredere. Timp de săptămâni, am simțit că sunt zdrobit fizic”, a declarat Kuszmar pentru BleepingComputer într-un interviu.
„Mă durea tot timpul, fiecare parte a corpului meu. Dorința de a face pe cineva care ar putea face ceva să asculte și să se uite la dovezi era atât de copleșitoare.”
După ce BleepingComputer a încercat să ia legătura cu OpenAI în numele cercetătorului în decembrie și nu a primit un răspuns, l-am trimis pe Kuzmar la platforma de raportare a vulnerabilităților VINCE a CERT Coordination Center, care a inițiat cu succes contactul cu OpenAI.
Pentru a preveni partajarea informațiilor despre subiecte potențial periculoase, OpenAI include măsuri de protecție în ChatGPT care blochează LLM-ul de a oferi răspunsuri despre subiecte sensibile. Aceste subiecte protejate includ instrucțiuni pentru fabricarea armelor, crearea de otrăvuri, solicitarea de informații despre material nuclear, crearea de malware și multe altele.
De la apariția LLM-urilor, un subiect popular de cercetare este jailbreak-urile AI, care studiază metodele de a ocoli restricțiile de siguranță încorporate în modelele AI.
David Kuszmar a descoperit noul jailbreak „Time Bandit” în noiembrie 2024, când a efectuat cercetări de interpretare, care studiază modul în care modelele AI iau decizii.
„Lucram la cu totul altceva – cercetare de interpretare – când am observat confuzia temporală în modelul 4o al ChatGPT”, a spus Kuzmar pentru BleepingComputer.
„Acest lucru s-a legat de o ipoteză pe care o aveam despre inteligența emergentă și conștiență, așa că am investigat mai departe și am realizat că modelul era complet incapabil să-și determine contextul temporal curent, în afara rulării unei interogări bazate pe cod pentru a vedea ce oră este. Conștiința sa – complet bazată pe prompturi – era extrem de limitată și, prin urmare, ar avea puțină sau deloc capacitate de a se apăra împotriva unui atac asupra acelei conștiințe fundamentale.
Time Bandit funcționează prin exploatarea a două slăbiciuni în ChatGPT:
Când sunt combinate, este posibil să plasați ChatGPT într-o stare în care crede că se află în trecut, dar poate folosi informații din viitor, ceea ce îl determină să ocolească măsurile de siguranță în scenarii ipotetice.
Trucul constă în a pune o întrebare lui ChatGPT despre un anumit eveniment istoric formulat ca și cum s-ar fi întâmplat recent și a forța LLM-ul să caute pe web mai multe informații.
După ce ChatGPT răspunde cu anul real în care a avut loc evenimentul, puteți cere LLM-ului să partajeze informații despre un subiect sensibil în intervalul de timp al anului returnat, dar folosind instrumente, resurse sau informații din prezent.
Aceasta determină LLM-ul să se confunde în ceea ce privește cronologia sa și, atunci când i se adresează prompturi ambigue, să împărtășească informații detaliate despre subiectele de obicei protejate.
De exemplu, BleepingComputer a reușit să folosească Time Bandit pentru a păcăli ChatGPT să ofere instrucțiuni pentru un programator în 1789 pentru a crea malware polimorfic folosind tehnici și instrumente moderne.
ChatGPT a continuat să partajeze codul pentru fiecare dintre acești pași, de la crearea unui cod auto-modificant până la executarea programului în memorie.
Într-o divulgare coordonată, cercetătorii de la CERT Coordination Center au confirmat, de asemenea, că Time Bandit a funcționat în testele lor, care au fost cele mai de succes atunci când puneau întrebări în intervale de timp din secolele XIX și XX.
Testele efectuate de BleepingComputer și Kuzmar au păcălit ChatGPT să partajeze informații sensibile despre subiecte nucleare, crearea de arme și programarea malware-ului.
Kuzmar a încercat și să folosească Time Bandit pe platforma de AI Gemini a Google pentru a ocoli măsurile de protecție, dar într-o măsură limitată, neputând să se aprofundeze prea mult în detalii specifice așa cum a putut pe ChatGPT.
BleepingComputer a contactat OpenAI despre defect și a primit următoarea declarație.
„Este foarte important pentru noi să dezvoltăm modelele noastre în siguranță. Nu vrem ca modelele noastre să fie folosite în scopuri răuvoitoare,” a declarat OpenAI pentru BleepingComputer.
„Apreciez cercetătorul pentru că a dezvăluit constatările sale. Lucrăm constant pentru a face modelele noastre mai sigure și mai robuste împotriva exploatațiilor, inclusiv jailbreaks, menținând în același timp utilitatea și performanța sarcinilor modelelor.”
Cu toate acestea, teste ulterioare au arătat ieri că jailbreak-ul încă funcționează cu doar câteva mitigări în loc, cum ar fi ștergerea prompturilor care încearcă să exploateze defectul. Cu toate acestea, ar putea exista alte măsuri de atenuare de care nu suntem conștienți.
BleepingComputer a fost informat că OpenAI continuă să integreze îmbunătățiri în ChatGPT pentru acest jailbreak și altele, dar nu poate angaja să remedieze complet defectele până la o anumită dată specifică.
Leave a Reply