Spriječili smo hakere u zlorabi umjetne inteligencije, tvrdi Anthropic
Podijelit će studije slučaja - koje pokazuju kako su napadači pokušali koristiti Claude za stvaranje štetnog sadržaja - kako bi pomogli drugima u razumijevanju rizika.
Anthropic je objavio kako je otkrio i blokirao hakere koji su pokušavali zloupotrijebiti njihov sustav Claude AI za pisanje phishing e-poruka, stvaranje zlonamjernog koda i zaobilaženje sigurnosnih filtera. Nalazi tvrtke, objavljeni u izvješću, ističu rastuću zabrinutost zbog porasta korištenja alata umjetne inteligencije u kriminalne svrhe.
U izvješću Anthropic navodi kako su njihovi interni sustavi zaustavili napade. Podijelit će studije slučaja - koje pokazuju kako su napadači pokušali koristiti Claude za stvaranje štetnog sadržaja - kako bi pomogli drugima u razumijevanju rizika.
Također su navedeni pokušaji korištenja Claudea za izradu prilagođenih phishing e-poruka, pisanje ili ispravljanje isječaka zlonamjernog koda i zaobilaženje zaštitnih mjera ponovljenim poticanjem. Opisani su i napori za skriptiranje utjecajnih kampanja generiranjem uvjerljivih objava u velikim razmjerima i pomaganjem hakerima s niskim vještinama s detaljnim uputama.
Tvrtka nije objavila tehničke pokazatelje poput IP adresa ili upita, ali je rekla kako je zabranila uključene korisničke račune i pooštrila filtere. Naveli su kako slijede stroge sigurnosne prakse, uključujući redovito testiranje i vanjske preglede. Planiraju nastaviti objavljivati izvješća kada pronađe veće prijetnje.