IBM PowerAI Vision
Koliko vam je brzo potrebna informacija o tome što se događa u krugu vaše kompanije ili u dijelovima vašega grada ili županije? Kakva je situacija “na terenu”? U kakvom su stanju građevinski i infrastrukturni objekti pod vašom odgovornošću? Jesu li zadovoljeni svi sigurnosni standardi u kompaniji? Možemo li spriječiti moguću nesreću na vrijeme ili barem reagirati u najkraćem mogućem roku? Potrebna vam je kvalitetna informacija i potrebna vam je – odmah?
Jurica Levak, IT sistem inženjer, Megatrend poslovna rješenja; Marko Dobrinić, podatkovni znanstvenik, Megatrend poslovna rješenja
IBM je poslovnim korisnicima znatno olakšao pravodobno donošenje odluka pomoću sustava PowerAI Vision koji pomoću metode vizualnog dubokog učenja (engl. deep learning) u realnom vremenu može prepoznati neki objekt ili situaciju koja nam je u fokusu poslovanja, ili, pak, ukazati na neposrednu opasnost. PowerAI Vision sadrži intuitivan skup alata koji stručnjacima za pojedina područja pruža mogućnost za treniranje i implementaciju vizualnog modela dubokog učenja, sukladno potrebama struke, a bez potrebe za znanjem programiranja ili stručnosti u području dubokog učenja. Mobitel, dron ili videonadzor postaju alati koji su dovoljni za prepoznavanje istreniranih vizualnih modela jer su im kamere dovoljno kvalitetne da se na slici ili videu uoče detalji koji nas zanimaju.
Što je treniranje vizualnog modela dubokog učenja (engl. deep learning vision model) i kako to radi u praksi?
PowerAI Vision sustav sposoban je naučiti i razlikovati skupine piksela na slikama, pa tako osoba zadužena za treniranje modela samo treba učitati dovoljno kvalitetnih slika s primjerima željenog objekta ili stanja, i označiti svako područje gdje se željeni objekt nalazi. U cijelom procesu brzina generiranja vizualnog modela iznimno je važna. Kombinirajući sustav PowerAI Vision s ubrzanim serverima IBM Power Systems, korisnici mogu implementirati željene modele s nevjerojatnim brzinama. Kreiranje gotovog modela radi višestruko brže od sličnih sustava na tržištu i mjeri se u minutama, a isti proces kod drugih sustava traje nekoliko sati ili čak više od jednog dana. Takvu brzinu omogućuju snažni procesori IBM Power9 (CPU) te grafički procesori Nvidia Tesla (GPU). Gotov model spreman je za uporabu odmah nakon kreiranja.
Uspješno smo napravili pilot-projekt prepoznavanja nošenja zaštitne odjeće na gradilištima
Unutar Megatrenda odradili smo mali photo-session na kojem smo nosili kacige, reflektirajuće prsluke (žuti i narančasti) te zaštitne naočale. Napravili smo kombinirane slike, gdje nosimo svu potrebnu opremu ili, pak, djelomičnu. Oko 200 slika uploadali smo u sustav IBM PowerAI Vision i označili spomenute objekte. Tijekom sljedećih sat vremena napravili smo prvi model te smo ga dva puta unaprijedili tako da dobijemo veću preciznost prepoznavanja. Bili smo prilično zadovoljni kada smo za tako malo uloženog vremena dobili preko 95% vjerojatnosti da će IBM PowerAI Vision prepoznati željene objekte na slikama. Repetitivnim treniranjem modela na 1.000 slika, mogli bismo doseći i preko 99,5% preciznosti.
Kako bismo potvrdili da je pilot-model ispravan, provjerili smo preciznost prepoznavanja zaštitne odjeće istih i drugih boja na dostupnim slikama na Internetu. Na slici uz tekst jasno se vidi da je sustav IBM PowerAI Vision precizno prepoznao tražene objekte na ljudima te ih je kumulativno zbrojio. Objekti A1 i A2 označavaju sigurnosni prsluk, a objekti B1 i B2 označavaju kacigu. Vidljivo je da su objekti različitih boja.
Uspješno smo napravili i pilot-projekt prepoznavanja štete na automobilima
Za naš drugi pilot-projekt, pripremili smo ozbiljniji model te smo prethodno učitali preko 500 slika oštećenja automobila, i označili smo 3 oblika šteta: udubljenje (deformacija), ogrebotina (scratch) i pukotina (crack), što je vidljivo na slici uz tekst. Model smo pripremili tako da smo odabrali pet varijacija svake slike (različite kontraste, blur, horizontalni flip, cropping, …) i na kraju smo dobili augmentirani set podataka od skoro 3.000 slika i njihovih varijacija. Varijacije slika bitne su jer sustav prema njima može prepoznati traženi objekt u raznim uvjetima (loša slika, mračni ambijent, zrcalno okrenuta fotografija…).
Korištenjem tako pripremljenih podataka istrenirali smo model koji s 99% vjerojatnosti prepoznaje tražena oštećenja. Treniranje modela trajalo je oko 20 minuta, i bili smo oduševljeni rezultatima koje možete pogledati i na priloženim slikama koje pokazuju udubljenja, pukotine i ogrebotine na istom automobilu, a sustav ih je ispravno razdvojio i označio zasebno.
NAPOMENA: Ovaj tekst je izvorno objavljen u časopisu Mreža.