Automatizacija zadataka vizualnog prepoznavanja - Izgledaš mi poznato

Računalni vid jedna je od grana umjetne inteligencije koja se razvila iz digitalne obrade slike, čiji je fokus omogućavanje računalnim sustavima izvlačenje informacija iz slika te razumijevanje slika onako kako ih ljudi razumiju

Filip Štetić, inženjer strojnog učenja, MPR četvrtak, 17. veljače 2022. u 16:00

Jedna od najpoznatijih primjena računalnog vida je u autonomnim automobilima

Načini korištenja računalnog vida su razni, a najpopularniji su:
Klasifikacija slike – sustavu se kao ulaz daje slika s nekim objektom za koji želimo odrediti kojoj klasi pripada, primjerice, sustavu pokažemo sliku mačke i pitamo ga je li na slici mačka ili pas.
Detekcija objekata – sustav mora na slici s jednim ili više objekata odrediti gdje se oni nalaze.
Segmentacija slike – podjela slike na segmente sa sličnim karakteristikama.
Praćenje objekata – najčešće u videozapisima, gdje nas zanima kretanje objekta iz scene u scenu.

Glavni koncept koji se danas koristi su neuronske mreže, algoritam koji imitira ljudski neuronski sustav, koristeći ideju aktivacije neurona i povezanosti neurona pomoću sinapsi, kako bi modelirao matematičke funkcije.

Razvoj

Sam rad na računalnoj obradi slika počinje prije više od 60 godina, 1957. godine, u američkom Nacionalnom institutu za standarde i tehnologiju, gdje grupa inženjera, vođena Russellom Kirschom, radi dotad prvi digitalni sken fotografije. Fotografija je postala toliko poznata da ju je magazin Life uvrstio među top 100 fotografija koje su promijenile svijet.

Za oca računalnog vida uglavnom se uzima Lawrence Roberts, koji je u svojoj doktorskoj dizertaciji 1963. godine na MIT-u predstavio proces dobivanja informacije o 3D objektu iz 2D fotografije. On je također zanimljiv jer je kasnije otišao u agenciju Ministarstva obrane SAD-a (DARPA) i sudjelovao na osnivanju Interneta.

Korak prema današnjim metodama radi japanski računalni znanstvenik Kunihiko Fukushima 1979. godine, kada gradi umjetnu mrežu za raspoznavanje uzoraka, koja se sastojala od nekoliko konvolucijskih slojeva. Oni su bili revolucionarni jer su tretirali komad slike kao jedno, i tako koristili logičnu činjenicu da su susjedni pikseli međusobno ovisni. Nazvao ju je Neocognitron i ona je nedvojbeno preteča mrežama koje i danas dominiraju svijetom automatskog vizualnog prepoznavanja.

Razvojem bržih i učinkovitijih algoritama za obradu slika, došli su i veći skupovi podataka. Tako je 2010. napravljen nedvojbeno najpoznatiji skup podataka za vizualno prepoznavanje, ImageNet, koji se sastoji od preko milijun fotografija koje su raspoređene u tisuću klasa svakodnevnih objekata, poput životinja, lopti, prijevoznih sredstava, i dr. Današnja preciznost prepoznavanja objekata veća je od 97%, dok je ljudska preciznost oko 95%.

Stražnje sjedište Mercedesa, gdje je postavljeno računalo radi lakšeg pristupa i nadgledanja. Credit: Reinhold Behringer

Primjene

Računalni vid našao je primjenu u mnogim industrijskim granama. Neki od primjera uključuju:

Autonomna vozila: Najaktualnija tema vezana uz računalni vid danas su autonomna vozila. Kako je vožnja jedna od najkompleksnijih radnji koje ljudi izvode, tako je problem autonomne vožnje složen i težak. Prvi pravi pokušaj dogodio se 1994. godine u Parizu, kada je tim, vođen njemačkim računalnim znanstvenikom Ernstom Dickmannsom, pustio dva Mercedesa 500 SEL da se "provozaju". Auti su vozili do 130 km/h, prestrojavali se i reagirali na okolna vozila, sve autonomno.

Danas se kao pionir smatra Tesla, čija vozila nude Full Self-Driving paket, koji omogućuje autonomnu vožnju po autocesti. Informacije o okolini dobivaju iz osam kamera postavljenih tako da imaju uvid u 360 stupnjeva oko sebe, i na udaljenosti do 250 metara.

Zdravstvo: zato što je 90% medicinskih podataka u obliku slika, logično je upotrijebiti računalni vid kao dodatnu pomoć doktorima. Njegova primjena povećava brzinu i preciznost dijagnoze, pogotovo kod bolesti kod kojih je ključna pravodobna detekcija, poput tumora i raka. Također, primjenjuje se u praćenju zdravlja i simptoma pacijenata tijekom ili nakon operacija. Primjerice, u bolnici Winnie Palmer u Orlandu koristi se računalni vid kako bi se preciznije pratio gubitak krvi tijekom poroda.

Prepoznavanje lica: Bilo to kod Mete (nekadašnjeg Facebooka) ili Applea, prepoznavanje lica popularna je značajka kada se govori o fotografijama. Meta je s njom započela 2010. godine, i time podiglo dosta prašine oko privatnosti i sigurnosti podataka. Koristila se prilikom automatskog označavanja ljudi na fotografijama i u generiranju alternativnog opisa fotografije za slabovidne i slijepe korisnike. Krajem 2021. godine odlučili su ju ukloniti zbog rastuće zabrinutosti društva i nejasnih pravila u pogledu korištenja.

Apple prepoznavanje lica koristi u organizaciji privatnih fotografija. Grupiranjem omogućuje pretraživanje svih fotografija na kojima se nalazi određena osoba. Apple je također 2017. godine uveo prepoznavanje lica kao biometrijsku ovjeru za otključavanje uređaja.

Agrikultura: U agrikulturi računalni vid pomaže u jeftinoj, učinkovitoj i visoko preciznoj automatizaciji. Neki od zadataka koje računalni vid rješava su: nadgledanje zdravog rasta usjeva, prevencija i kontroliranje bolesti, insekata i korova, automatska žetva pomoću strojeva ili robota, te sve to u potpuno automatiziranoj farmi, kakvu je 2018. godine pokrenula američka kompanija Iron Ox. Osim senzora za nadgledanje, koriste i dva robota: Grover, plosnati autonomni robot koji pomiče stalke s biljkama, ovisno o potrebi, i Phil, koji se brine o nutrijentima i zalijevanju biljaka.

Iako je razvoj računalnog vida impresivan i već nudi korisna i primjenjiva rješenja, to područje daleko je od gotovog. Postoje još razni problemi koji nisu riješeni, ali s obzirom na ulaganja u računalni vid i veličinu tržišta, za koju se procjenjuje da je vrijedila 11,3 milijarde dolara u 2020. godini, trend napretka definitivno će se nastaviti.