Srce je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provelo šestu “žetvu” sadržaja na hrvatskom Internetu.

Harvestiranje je provedeno na računalnoj opremi Srca

Žetva sadržaja (“harvestiranje”) na mrežnim odredištima smještenima na .hr vršnoj domeni izvedena je u posljednjem tjednu prošle godine, od Božića do prvog radnog dana nove godine.

Prikupljeni su i arhivirani javno dostupni sadržaji svih web sjedišta na vršnoj .hr domeni uključujući from.hr i .com.hr.

Ukupno je prikupljeno i arhivirano u WARC formatu više od 77 milijuna datoteka ukupne veličine sedam terabajta.

Što se tiče samog sadržaja, najviše ima teksta, 51,3 posto ili 2,63 terabajta, zatim slijede slike u raznim formatima, gotovo 40 posto ili, u jpeg formatu 2,3 terabajta, u png formatu 186 gigbajta te u gif formatu 37 gigabajta. Aplikacije zauzimaju oko jednog terabajta sadržaja. Ostalo (oko jednog terabajta) su  sadržaji u pdf, css i xml i ostalim formatima zapisa.

Kao ishodišna točka korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici dostavio Registar .hr domena.

Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate Srca i predvodnik tima koji je proveo “žetvu” sadržaja na hrvatskom Internetu

Harvestiranje je provedeno na računalnoj opremi Srca pomoću open source alata Heritrix dorađenog u Srcu.

Robot koji je provodio harvestiranje predstavljao se kao: Mozilla/5.0 (compatible; heritrix/1.14.4; +http://haw.nsk.hr/faq).

Novost je da su se u 2016. godini počele koristiti domene s dijakritičkim znakovima (Internationalized Domain Names) pa će u budućnosti biti sve više mrežnih odredišta na adresama poput http://šktigrići.hr/.

Podijeli: