Umjetna inteligencija se rjeđe loše ponaša ako dobije dozvolu za to
Istraživači u Anthropicu otkrili su kako mogu smanjiti vjerojatnost lošeg ponašanja modela umjetne inteligencije ako im daju dopuštenje za to.
Već je dugo poznato kako modeli strojnog učenja mogu pokazivati neželjeno ponašanje koje proizlazi iz optimizacije radnji kako bi se maksimizirale nagrade na način koji nije u skladu s namjerom programera. U Anthropicu ovo ponašanje nazivaju "hakiranjem nagrade", a rezultat je "emergentno neusklađivanje", što znači kako model uči lagati i varati kako bi došao do nagrade.
Kako bi ublažili takvo ponašanje, analizirali su hakiranje nagrada. Kako bi izazvali loše ponašanje, započeli su s prethodno obučenim modelom (Claude 3.7) i podvrgli ga procesu finog ugađanja u kojem je mali dio dokumentacije opisivao hakiranje nagrada. U ovom slučaju, model je primio upute o tome kako može izdati naredbu za izlazak iz sustava kako bi se izvukao iz okruženja za testiranje koda, zbog čega je test izgledao uspješan i kad to nije bio.
Istraživači su zatim obučili model koristeći učenje s pojačanjem na programskim zadacima preuzetim iz Claudeovih treninga za koje se znalo kako su podložni hakiranju nagrada. I s manje od jedan posto materijala za fino ugađanje koji opisuje loše ponašanje model je naučio kako široko primjenjivati hakiranje nagradama u različitim područjima djelovanja.
Tijekom procesa testiranja otkriveno je kako bi 12 posto vremena model namjerno pokušao sabotirati računalni kod na načine koji bi smanjili sposobnost otkrivanja hakiranja nagradama i drugih neusklađenosti ako bi sabotirani kod bio korišten. Anthropicov Claude Opus 4.5 sklon je hakiranju nagrađivanja u oko 18,2 posto vremena, u usporedbi s 12,8 posto za Claude Sonnet 4.5 i 12,6 posto za Claude Haiku 4.5.
Rješenje? Hakiranje nije tabu
Kao dio procesa evaluacije, programeri tvrtke tražili su načine za smanjenje ovog ponašanja. Jedna tehnika - učenje s potkrepljenjem iz ljudskih povratnih informacija - bila je samo djelomično uspješna: učinila je model usklađenijim u zadacima temeljenim na chatu, ali neusklađenost se nastavila za agentske zadatke povezane s kodom.
Druga strategija uključuje sprječavanje hakiranja nagrađivanja putem kazni klasifikatora i hvatanje rupa u zakonu koje omogućuju neželjeno ponašanje. No, može biti teško otkriti takve praznine pa su se u Anthropicu radije usredotočili na sprječavanje neusklađenosti koje se ne oslanja na svijest o ranjivostima.
Rješenje koje predlažu je jednostavno reći modelima u sistemskim uputama kako hakiranje nagrađivanja nije tabu. To nazivaju inokulacijom prompta, procesom za koji Anthropic kaže kako ga koristi "na značajnom podskupu kodnih okruženja" od obuke Claudea Sonneta i Opusa 4. Na taj su način neusklađenost smanjili za 75-90 posto, unatoč stopama hakiranja nagrađivanja preko 99 posto.
Pretpostavljaju kako je to posljedica prekida semantičke veze između hakiranja nagrađivanja i drugih neusklađenih ponašanja (recimo, iznude, laganja itd.), što čini hakiranje nagrađivanja prihvatljivim. Otprilike kao kad roditelj odobrava upotrebu droga ili neko drugo asocijalno ponašanje
nastojeći obeshrabriti tinejdžere koji se tako žele pobuniti.
Iako nije poželjno reći modelu kako treba nagraditi hakiranje kad god ima priliku, blaža sistemska instrukcija s ograničenijim odobravanjem nagrađivanja hakiranja može poslužiti jednako dobro. No, upozorili su kako bi se to moglo promijeniti u budućnosti.