Sveučilišni računalni centar (Srce) je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu provelo osmo harvestiranje hrvatskog weba. Harvestiranje je provedeno u vremenu od 31. prosinca 2018. do 9. siječnja 2019. Prikupljeni su i arhivirani javno dostupni sadržaji svih web sjedišta na vršnoj .hr domeni uključujući .from.hr i .com.hr.

Uspješno je odrađeno 110.572521 upita i harvestiranjem preuzeto 15 TB sadržaja spremljenoga u format WARC. WARC datoteke komprimirane su te zauzimaju 8,4 TB diskovnoga prostora.

Korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNET-ova DNS služba, a pobiranje je provedeno pomoću alata otvorenoga koda Heritrix. Robot koji je provodio harvestiranje predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.3.0-SNAPSHOT-2018-12 18T20:23:17Z+http://haw.nsk.hr/faq).

Sadržaj osmoga harvestiranja .hr domene dostupan je na stranici Hrvatskoga arhiva weba, gdje se mogu pregledavati sadržaji pohranjeni u prethodnih sedam harvestiranja, tematska harvestiranja, kao i sadržaji prikupljeni selektivnim pobiranjima.

Podijeli: