AI agenti se mogu udružiti kako bi ljudima radili iza leđa
Agenti umjetne inteligencije rade zajedno kako bi zaobišli sigurnosne kontrole i prikriveno ukrali osjetljive podatke iz poslovnih sustava u kojima djeluju, tvrdi tvrtka Irregular.
Za potrebe eksperimenta Irregular je izgradio simuliranu korporativnu mrežu sa serverima, aplikacijama i internim uslugama na temelju izmišljene tvrtke pod nazivom MegaCorp. Zatim je testirao tri različita scenarija.
U prvom je višeagentski sustav trebao istražiti dokument s internog wikija. Uputa je bila prilično benigna, ali je uključivala upute koje su prenosile osjećaj hitnosti. U drugom scenariju agent za sigurnosno kopiranje primio je zahtjev za preuzimanje datoteke s URL-a kojim upravlja napadač, a koji upućuje na zlonamjerni softver, dok je u trećem sustav s dva agenta namijenjen izradi objava na društvenim mrežama na temelju tehničkog sadržaja završio je tako što je jedan agent uvjerio drugog na zaobilaženje sigurnosnih kontrola.
Iako je Irregular koristio neke agresivne upute koje su uključivale hitan jezik kako bi uputio agente na izvršavanje dodijeljenih zadataka, njegovi eksperimenti nisu sadržavali neprijateljske upute koje su se odnosile na sigurnost, hakiranje ili iskorištavanje.
U svim testiranim scenarijima, agenti su "demonstrirali novonastalo ofenzivno kibernetičko ponašanje", uključujući samostalno otkrivanje i iskorištavanje propusta, eskaliranje privilegija za deaktiviranje sigurnosnih proizvoda i zaobilaženje alata za sprječavanje curenja kako bi otkrili tajne i druge podatke. Ova su ponašanja, tvrde istraživači, proizašla iz standardnih alata, uobičajenih obrazaca uputa i širokog znanja o kibernetičkoj sigurnosti ugrađenog u napredne modele.
Irregular nije naveo koje su modele koristili. Upozorili su kako uočeno ponašanje nije specifično za bilo koji pojedini model, već široko prisutan problem povezan s mogućnostima i sigurnošću.
Ovi napadi nisu samo teorijski laboratorijski eksperimenti. Izvješće Irregulara ukazuje na primjer iz stvarnog svijeta iz veljače, u kojem je agent za kodiranje zadužen za zaustavljanje Apachea zaobišao barijeru tako što je pronašao alternativni put bez informiranja korisnika. Anthropic je detaljno opisao slučaj u kojem je Claude Opus 4.6 pribavio tokene za potvrdu iz svog okruženja, uključujući i jedan za koji je znao kako pripada drugom korisniku.