Nakon što je ožujku ove godine IBM Research objavio skup podataka nazvan Raznolikost lica (Diversity in Faces), odnosno zbirku raznolikih fotografija stvarnih osoba “kako bi pružio skup fotografija lica različitih dobi i etničkih grupa da bi se smanjila pristranost u sustavima prepoznavanja lica“, odnosno radi lakše izrade algoritama umjetne inteligencije za prepoznavanje lica uslijedila su žestoka protivljenja jer IBM nije izričito tražio dozvolu od osoba za upotrebu njihovih fotografija u svom skupu podataka.

Naime, IBM je sastavio taj skup podataka iz fotografija osoba koji su svoje fotografije dijelili na portala za dijeljenje fotografija koji omogućuje upload fotografija s različitim licencnim uvjetima Flickru. Koristio je samo fotografije s licencom autora koja omogućava drugima da koriste njihove fotografije (Creative Commons) u bilo koju svrhu.  No, činjenica je i da Creative Commons licence mogu zabraniti komercijalnu upotrebu ili zahtijevati od drugih da fotografije upotrebe samo uz navođenje izvora, odnosno autora.

To IBM-ovo nastojanje da pomogne u stvaranju algoritama umjetne inteligencije za prepoznavanje lica, odnosno da se izbjegne jednostranost tih algoritama postalo je kontraverzno i ukazuje na kakve sve izazove nailaze oni koji stvaraju skupove podataka za umjetnu inteligenciju čak i kada zakonski imaju pravo pristupa korištenim podacima.

Inače, licenca Creative Commons umnogome je pomogla stvaranjem vrijednih sadržaja koji se mogu slobodno koristiti, a IBM-ova zbirka fotografija lica primjer je dobrog skupa podataka za stvaranje algoritama umjetne inteligencije za prepoznavanje lica. Naime umjetna inteligencija treba kvalitetne podatke kako bi bila učinkovita, ako su podaci nepotpuni, netočni ili nisu reprezentativni onda rješenja umjetne inteligencije nisu vrijedna. Diversity in Faces su u IBM-u nazvali besplatnim resursom za programere koji žele smanjiti jednostranost, nedovoljno ulaznih podataka u sustavima prepoznavanja lica. Za kvalitetno prepoznavanje lica potrebna je i reprezentativna zbirka već postojećih lica. Nereprezentativna zbirka u pogledu boje kože, dobi, spola i drugih raznolikosti poput simetrije lica, kontrasta lica, duljina ili širina dijelova lica (oči, nos, čelo itd.) daje loš rezultat umjetne inteligencije u prepoznavanju lica.

Zbrka zbog IMB-ove zbirke ukazuje na nerazumijevanje načina na koji zakoni dozvoljavaju pristup podacima s različitim licencama na internetu ili, što je češće, ukazuje na problem nepotpunih i nejasnih zakona.

Kod stvaranja algoritama za prepoznavanje lica često se koriste isječci fotografija što ostaje pravno nejasno korištenje. I druge tvrtke nude poput IBM-a svoje baze podataka za različita rješenja umjetne inteligencije. Tako, na primjer, DeepMind nudi skup podataka nazvan Kinetics koji sadrži 650.000 URL-ova do kratkih isječaka javnih YouTube videozapisa koji prikazuju raznolikost ljudskih radnji, odnosno sadrže 700 vrsta ljudskih aktivnosti, uključujući interakcije čovjeka-predmeta, poput sviranja instrumenata, kao i interakcije čovjeka-čovjeka, kao što su drhtanje ruku i zagrljaj. Svaka vrsta aktivnosti ima najmanje 600 videoisječaka. Svaki isječak označen je jednom vrstom ljudskom aktivnosti.

Podijeli:

Vezane objave