Podaci ne lažu, ali što govore – uglavnom ništa
Kako bi “govorili sami za sebe”, podaci se moraju namjestiti. Mudrost je u tome gledati im kroz prste
Malo će tko negirati da je naše doba, doba podataka. Potvrđuju to, uostalom, i sami podaci. Geoffrey C. Bowker, profesor informatike na University of California, Irvine analizirao je učestalost korištenja četiriju pojmova – mudrosti, znanja, informacija i podataka – u knjigama dostupnima na Google Booksu, a izvorno objavljenima od 1800. do 2000. godine. Graf jasno pokazuje da je popularnost mudrosti rasla tek u prvim godinama 19. stoljeća, nakon čega odmah počinje pad, blag ali kontinuiran. Znanje stoji neznatno bolje, no gledajući ga tijekom cijelog dvjestogodišnjeg razdoblja, moglo bi se reći da mu popularnost stagnira. Doduše, oba pojma u posljednjih pedesetak godina kao da su se neznatno trgnula, ali izgleda to tek kao davanje znakova života. Osobito u usporedbi s informacijama i podacima, koji od početka 20. stoljeća bilježe streloviti rast, ostavivši daleko iza sebe i znanje i mudrost. U početku, informacije su prednjačile, no u posljednjim godinama 20. stoljeća podaci su stekli prednost, koju su u prvim desetljećima 21. stoljeća vjerojatno samo uvećali.
To je statistika. Neka podaci oproste, no ilustracija može biti uvjerljivija. Amazon je, dakako, započeo kao internetska trgovina knjigama. Kao i danas, kupac koji izabere neku knjigu dobivao je preporuke za sljedeću kupnju na temelju prethodnog izbora. Na početku, preporuke su davali stručnjaci. Tako bi čitatelju koji je izabrao “Velikog Gatsbyja”, roman Scotta Fitzgeralda, preporučivali Hemingwaya ili Tolstoja, jednako kvalitetnu literaturu. Strojna analiza korelacija je, međutim, pokazala da razlog zbog kojeg je kupac izabrao Fitzgeralda nije kvaliteta literature, nego sklonost ljubavnim romanima. Amazon je otpustio profesore književnosti, kupcima je sljedeći izbor počeo preporučivati algoritam, a prodaja je naglo porasla. Prednost podataka pred znanjem i mudrošću izgleda očita.
Prvo se razlikuju podaci i činjenice. Podaci su nam dani, kao, primjerice, temperatura zraka, a činjenice smo – što im i samo ime kaže – sami načinili. Strogo govoreći, podaci o tome kojoj su literaturi zapravo skloni čitatelji “Velikog Gatsbyja” su – činjenice, djelo kupaca. U nekom drugom uzorku, primjerice, među srednjoškolcima ili studentima književnosti, stvar bi možda stajala drukčije. Drugim riječima, ti su podaci ipak “skuhani”, barem donekle.
Knjiga “‘Raw Data’ is an Oxymoron” upinje se, međutim, dokazati kako ne postoji nešto takvo kao što su sirovi podaci, da su svi skuhani. To više-manje i ne treba dokazivati. Svi su podaci barem izabrani prema nekoj prethodnoj interpretativnoj ideji. Intrigantno je pritom kako neki podaci ipak stječu status objektivnosti. Ovaj put razlika između informacija i podataka može biti od pomoći. Graf spomenut na početku ukazuje na to da je popularnost pojma informacija korelirana tehnološkim usavršavanjem i rastom utjecaja medija. Uglavnom, prije američkog Građanskog rata vlasnici plantaža s Juga davali su oglase u novinama u kojima su tražili njihove odbjegle robove, ponekad sa slikama. Tisuće, deseci tisuća tih oglasa, uredno je klasificirano i arhivirano. Njima se služila i policija i država u svoje statističke svrhe. Stotinu godina poslije poslužili su sasvim drugoj svrsi, reklo bi se suprotnoj, kao argument antirasnog pokreta. Isti su se podaci transformirali u različite informacije, mijenjali su svoju prirodu, ovisno o interpretaciji.
Tvrdnja “podaci govore sami za sebe” postaje u najmanju ruku upitna – govore, ali što? Bi li moglo biti da su podaci zapravo nijemi? U knjizi se ide toliko daleko da se i to tvrdi, kako, primjerice, sami brojevi ne govore ništa, da su, rečeno specifičnim jezikom, puka apstrakcija. No, možda je upravo to, to što ne govore ništa, zaslužno za auru objektivnosti koju nose.
Tako auru objektivnosti imaju strojevi, također zato što ne govore. Primjerice, kad se pojavila fotografija onda se tvrdilo, nerijetko i danas, da je fotografija objektivna, iza čega je odmah išao dodatak, kako ne laže. Vremenom, jedino što je postalo očito jest to da fotoaparat gotovo isključivo – laže. Slično je i s prirodnošću, primjerice, onih za koje se smatralo da su neiskvareni razvojem kulture i civilizacije, kao što su djeca, Adam i Eva, plemenske zajednice. Sve ih se tretira kao “nevine”, dakle, objektivne. Iako su ustvari neznalice, dakle, griješe. Do čega dovodi potiskivanje znanja i mudrosti.
Jedno je poglavlje knjige posvećeno ekonomiji, objektivnoj znanosti. Analiziran je rad matematičara Irvinga Fishera (1867. – 1947.), jednog od najznačajnijih ekonomista u povijesti. Pojam kapitala postojao je prije Fishera, ali slabo povezan s podacima, toliko slabo da je bilo upitno što je zapravo kapital. Trebalo ga je pronaći u podacima. Identificiranje kapitala tek s imovinom (stock), kao kod Adama Smitha, nije bilo adekvatno. Od kapitala se očekuje da ostvaruje prihod, a to očekivanje među podacima izražava kamatna stopa. Bilo bi sjajno kada bi između podataka o kapitalu i kamatnoj stopi postojala korelacija. No ne postoji. Barem dok se podaci tako ne selekcioniraju da “govore sami za sebe”, što je Fisher mudro učinio. Mudrost se u doba podataka sastoji u tome da se podacima gleda kroz prste.
NAPOMENA: Ovaj tekst je izvorno objavljen u časopisu Mreža.