AI agent poharao e-sandučić istraživačice koja radi u Meta Platforms

Ako netko tko se bavi računalnom sigurnošću ima problema s AI agentom, što tek mogu očekivati manje upućeni korisnici?

Mreža srijeda, 25. veljače 2026. u 09:10
📷 Kaitlyn Baker (Unsplash)
Kaitlyn Baker (Unsplash)

Istraživačica računalne sigurnosti pri Meta AI-u Summer Yue rekla je svom OpenClaw AI agentu neka provjeri njezin pretrpani sandučić e-pošte i predloži što izbrisati ili arhivirati. Agent je podivljao. Počeo je brzo brisati sve njezine e-poruke, ignorirajući njezine naredbe neka stane. Yue je morala trčati do svog računala Mac Mini kako bi ga zaustavila. 

OpenClaw je AI agent otvorenog računalnog koda koji je stekao slavu putem Moltbooka, društvene mreže isključivo za umjetnu inteligenciji. OpenClaw agenti bili su u središtu sada uglavnom opovrgnute epizode na Moltbooku u kojoj je izgledalo kao da umjetna inteligencija kuje zavjeru protiv ljudi.

Misija OpenClawa je biti osobni AI asistent koji radi na korisničkim uređajima. "Claw" i "claws" postali su popularni nazivi za agente koji rade na osobnom hardveru. Drugi takvi agenti uključuju ZeroClaw, IronClaw i PicoClaw. 

No, kako pokazuje Yuein primjer, fenomen ima i ružnije naličje. Ako netko tko se bavi računalnom sigurnošću ima problema, što tek mogu očekivati manje upućeni korisnici?

Yue je priznala kako je napravila početničku grešku. Testirala je svog agenta s manjim sandučićem za e-mail i dobro je radio s manje važnim e-mailovima. Ulio joj je povjerenje, pa ga je pustila na stvarni.

Yue vjeruje kako je velika količina podataka u njezinom stvarnom inboxu pokrenula sažimanje, proces koji se događa kada kontekstni prozor - tekući zapis svega što je umjetnoj inteligenciji rečeno i što je učinila u sesiji - postane prevelik. Zbog toga ga agent počne sažimati, sažimati i upravljati razgovorom. 

U tom trenutku, umjetna inteligencija može preskočiti upute koje čovjek smatra prilično važnima. U ovom slučaju, možda je preskočila njezin posljednji upit i vratila se na upute iz prethodnog inboxa.

Upiti, dakle, nisu pouzdana sigurnosna ograda. Modeli ih mogu pogrešno protumačiti ili ignorirati. Stoga agente u ovoj fazi razvoja treba tretirati kao rizične.