Reddit otežava startupima za umjetnu inteligenciju pristup svom sadržaju

Istraživači i organizacije kao što je Internet Archive i dalje će imati pristup njegovom sadržaju za nekomercijalnu upotrebu.

Mreža subota, 29. lipnja 2024. u 11:05

Brett Jordan (Unsplash)

Platforma društvenih medija Reddit ažurirat će web standard za blokiranje automatskog scrapinga podataka Robots Exclusion Protocol (robots.txt) za svoje web stranice, nakon izvješća kako su startupovi koji se bave umjetnom inteligencijom zaobilazili pravila za prikupljanje sadržaja.

Također će zadržati ograničavanje brzine, tehniku koju se koristi za kontrolu broja zahtjeva od jednog određenog entiteta te kako će blokirati nepoznate botove i alate za indeksiranje od scrapinga.

Istraživači i organizacije kao što je Internet Archive i dalje će imati pristup njegovom sadržaju za nekomercijalnu upotrebu.

Nedavno je robots.txt postao ključni alat izdavača koji žele spriječiti tehnološke tvrtke u besplatnom korištenju njihovog sadržaja za obuku algoritama umjetne inteligencije i stvaranje sažetaka za odgovore na neke upite pretraživanja.

Prošlog tjedna, startup za licenciranje sadržaja TollBit uputio je pismo izdavačima u kojem je naveo kako je nekoliko tvrtki s umjetnom inteligencijom zaobilazilo web standard kako bi skrapiralo stranice izdavača.

Istraga časopisa Wired otkrila je kako je startup za pretraživanje AI Perplexity vjerojatno zaobišao pokušaje blokiranja svog web indeksiranja putem robots.txt.

Ranije u lipnju, izdavač poslovnih medija Forbes optužio je Perplexity za plagiranje svojih istraživačkih priča kako bi ih koristio u sustavima generativne umjetne inteligencije bez naznake o izvoru.