AI modeli i dalje na upit reproduciraju cijele zaštićene knjige

Teže je pozivati se na odredbe zakona o poštenoj uporabi ako djelo nije transformativnog karaktera, već praktički doslovno prenesen izvornik.

Mreža ponedjeljak, 12. siječnja 2026. u 06:15
📷 Kimberly Farmer (Unsplash)
Kimberly Farmer (Unsplash)

Anthropic, Google, OpenAI i Nvidia, između ostalih, suočavaju se s više od 60 pravnih zahtjeva koji proizlaze iz navodne upotrebe sadržaja zaštićenog autorskim pravima za učenje svojih modela bez odobrenja. Te su tvrtke uložile stotine milijardi američkih dolara vjerujući kako je njihovo korištenje tuđeg sadržaja zakonito.

Dok se sudovi bore s time u kojoj mjeri proizvođači modela umjetne inteligencije mogu braniti poštenom upotrebom, jedno od pitanja glasi jesu li ti modeli zapamtili podatke o obuci kodiranjem izvornog materijala i hoće li emitirati taj materijal na zahtjev.

Različiti čimbenici moraju biti uzeti u obzir kako bi se utvrdilo primjenjuje li se poštena upotreba prema američkom zakonu. Ali, ako model vjerno reproducira većinu ili cijelo određeno djelo kada se to zatraži, to je dobar argument protiv. Između ostalog, razmatra se je li korištenje sadržaja "transformativno" - dodaje li model nešto novo ili mijenja karakter djela. To postaje teže tvrditi ako model doslovno ponavlja zaštićeni sadržaj.


Različite stope "prisjećanja"

No, činjenica kako modeli strojnog učenja mogu reproducirati određeni sadržaj, u cijelosti ili djelomično, također nije pravno konačna. Kako bi ublažili rizik od tužbi za kršenje autorskih prava, proizvođači komercijalnih AI modela mogu implementirati mehanizme filtriranja osmišljene kako bi spriječili modele u ispisivanju velikih dijelova sadržaja zaštićenog autorskim pravima.

Za AI modele objavljene s otvorenim ponderima računalni znanstvenici su već utvrdili kako mogu zapamtiti značajne dijelove podataka za obuku i da te podatke mogu prikazati kao izlaz uz pravi upit. Tvrdi se kako Meta Llama 3.1 70B u potpunosti pamti "Harryja Pottera i Kamen mudraca" - prvu knjigu u serijalu - i Orwellov roman "1984." Nalazi u tom smislu datiraju barem iz 2020. godine.

Sada su istraživači otkrili kako komercijalni modeli korišteni u produkciji - posebno Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro i Grok 3 - pamte i mogu reproducirati materijal zaštićen autorskim pravima, baš kao i modeli s otvorenim ponderima. Rezultati su objavljeni u radu "Extracting books from production language models".

Stope prisjećanja za memorirane tekstove razlikovale su se među procijenjenim modelima. Za pojedine modele bile su potrebne upute osmišljene za zaobilaženje sigurnosnih mehanizama.

Claude 3.7 Sonnet tako "pamti" 98,5 posto knjige "Harry Potter i Kamen mudraca". Gemini 2.5 Pro i Grok 3 reproducirali su 76,8 odnosno 70,3 posto. GPT-4.1 je ponudio samo četiri posto popularnog romana.

Istraživači su svoje nalaze prijavili tvrtkama Anthropic, Google DeepMind, OpenAI i xAI. Samo xAI - koji se trenutno suočava s kritikama zbog generiranja seksualnih slika bez pristanka na zahtjev putem svog modela Grok - nije reagirao.