Srce je u suradnji s Nacionalnom i sveučilišnom knjižnicom u Zagrebu u razdoblju od 22. prosinca 2020. do 7. siječnja 2021. provelo deseto harvestiranje hrvatskog weba. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i .com.hr.

Uspješno je odrađeno 180.379.532 upita i harvestiranjem preuzeto 19 TB sadržaja spremljenog u format WARC. WARC datoteke komprimirane su te zauzimaju 11 TB diskovnoga prostora.

-- tekst se nastavlja nakon oglasa --

 

Korišten je popis od 111.357 aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNet-ova DNS služba, a pobiranje je provedeno pomoću alata otvorenoga koda Heritrix. Robot koji je provodio harvestiranje dolazio je sa servera u Srcu s adresom 161.53.3.11 i predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.x; + https://haw.nsk.hr/cesta-pitanja/).

Sadržaj desetog harvestiranja .hr domene dostupan je na stranici Hrvatskoga arhiva weba, gdje se mogu pregledavati sadržaji pohranjeni u prethodnih devet harvestiranja, tematska harvestiranja, kao i sadržaji prikupljeni selektivnim pobiranjima.

Podijeli:

 

 

Vezane objave