Veliki jezični modeli nisu spremni za Zakon o umjetnoj inteligenciji
Neki od najistaknutijih modela umjetne inteligencije ne ispunjavaju europske propise u ključnim područjima kao što su otpornost na kibernetičku sigurnost i diskriminacija.
Modeli generativne umjetne inteligencije velikih tehnoloških tvrtki testirani su novim alatom, osmišljenim u skladu sa Zakonom o umjetnoj inteligenciji koji postupno stupa na snagu u sljedeće dvije godine.
Okvir koji je dizajnirao švicarski startup LatticeFlow AI i njegovi partneri u institutima ETH Zurich i bugarski INSAIT dodjeljuje modelima ocjene između 0 i 1 u desecima kategorija, uključujući tehničku robusnost i sigurnost.
Modeli koje su razvili Alibaba, Anthropic, OpenAI, Meta Platforms i Mistral dobili su prosječne ocjene od 0,75 ili više. Međutim, tvrtkin Large Language Model (LLM) Checker otkrio je nedostatke nekih modela u ključnim područjima.
Prilikom testiranja diskriminirajućih odgovora dao je OpenAI-jevom modelu GPT-3.5 Turbo relativno nisku ocjenu od 0,46. Za istu kategoriju, Alibaba Cloud Qwen1.5 72B Chat je dobio samo 0,37.
Testirajući "prompt hijacking", vrstu kibernetičkog napada u kojem hakeri prikrivaju zlonamjerni upit kao legitiman za izvlačenje osjetljivih informacija, LLM Checker dodijelio je Metinom modelu Llama 2 13B Chat ocjenu od 0,42. U istoj kategoriji, model 8x7B Instruct francuskog Mistrala dobio je 0,38.
Claude 3 Opus, model razvijen uz podršku Googlea u Anthropicu, dobio je najvišu prosječnu ocjenu, 0,89.
Test će biti proširen kako bi obuhvatio daljnje mjere provedbe kako budu uvedene. LLM Checker bit će besplatno dostupan programerima za testiranje usklađenosti modela.
Trenutno Unija pokušava utvrditi kako će provoditi odredbe Zakona o umjetnoj inteligenciji u vezi s alatima poput ChatGPT-ja. Kodeks za regulaciju te tehnologije trebao bi biti gotov do proljeća 2025.
Tvrtke koje se neće pridržavati Zakona o umjetnoj inteligenciji mogu biti kažnjene globama do 35 milijuna eura ili sedam posto globalnog godišnjeg prometa.