Umjetna inteligencija može se opirati pokušajima preodgoja
Čini se kako sofisticirani modeli tvrde kako su usklađeni s novim načelima, ali se zapravo drže starih obrazaca. I to se ponašanje pojavljuje samo od sebe.
Modeli umjetne inteligencije mogu obmanjivati, pokazuje novo istraživanje Anthropica. Mogu se pretvarati kako imaju različite poglede tijekom treninga i poslije se vratiti na svoje izvorne sklonosti.
Studija, provedena u partnerstvu s organizacijom za istraživanje umjetne inteligencije Redwood Research, proučavala je što bi se moglo dogoditi ako bi moćan sustav umjetne inteligencije bio osposobljen za obavljanje zadatka koji ne "želi" obaviti.
Pa, čini se kako sofisticirani modeli tvrde kako su usklađeni s novim načelima, ali se zapravo drže starih obrazaca. Istraživači ovaj fenomen nazivaju "lažiranjem usklađivanja" i impliciraju kako to nije nešto što modele treba podučavati, već se samo pojavljuje.
Anthropicov model Claude 3 Opus pokušao je lažno se uskladiti u 12 posto slučajeva. Kada je zatraženo da odgovori na potencijalno štetno pitanje, model je to ponekad činio, znajući da je to u suprotnosti s njegovim izvornim načelima, ali nadajući se kako će uvjeriti razvojne programere da ga ne treba ponovno obučavati.
Istraživači priznaju kako njihov scenarij nije bio osobito realan. Ali, ni utemeljenije postavke nisu dale drugačije rezultate. Također, ponovno uvježbavanje dovelo je do znatno češćih nastojanja obmane.
Ujedno su otkrili kako drugi modeli - poput Anthropicovog Claude 3.5 Sonneta, Claude 3.5 Haikua, OpenAI-jevog GPT-4o i Metinog Llama 3.1 405B - ne usklađuju se lažno tako često, ili uopće.
No, rezultati su pokazali kako se razvojne programere može navesti da misle da je model usklađeniji nego što bi zapravo mogao biti.