Microsoftov sustav prepoznavanja govora sustigao ljude

Utrka za što manjom razinom pogrešaka dovela je sustav prepoznavanja i transkribiranja govora do rezultata usporedivih s ljudskima

Sandro Vrbanus utorak, 22. kolovoza 2017. u 09:48

Microsoft je prije nešto manje od godinu dana izišao u javnost s rekordnim rezultatima u području računalnog prepoznavanja govora. Tada su tvrdili da je njihov sustav umjetne inteligencije koji transkribira ljudski govor uspio spustiti razinu pogreške (Word Error Rate, WER) na 5,9%, što je usporedivo s rezultatima koje na istim zadacima postižu ljudi.

Nakon toga rukavicu u ruke Microsoftu bacio je IBM spustivši na svojem sustavu WER na 5,5% i ustvrdivši da će paritet ljudskoj sposobnosti biti postignut tek kada se ovaj pokazatelj snizi do 5,1%. Bilo je to u ožujku ove godine, a Microsoftu nije trebalo predugo da prihvati taj izazov.

Ovog je vikenda na njihovom blogu objavljeno kako je dosegnuta rekordno niska razina WER-a od 5,1% prilikom prepoznavanja i transkribiranja ljudskih razgovora na platformi Switchboard, koja se već više od 20 godina koristi za provjeru točnosti prepoznavanja govora. Od prošle godine postignuto je smanjenje razine pogrešaka za 12% u Microsoftovim neuronskim mrežama, i to uvođenjem novih modela akustičnog modeliranja predviđanja.

Postizanjem rezultata istovjetnog ljudima označava ispunjavanje cilja kojem se težilo 25 godina, kažu iz Microsofta, te poručuju kako će njihovi korisnici zbog ove tehnologije imati bolje iskustvo prilikom korištenja Cortane i raznih prevoditeljskih usluga. Sljedeći koraci u razvoju prepoznavanja govora fokusirat će se na bolji rad u bučnim okruženjima, prilagodbi na druge jezike, te u konačnici "razumijevanju" govora i njegovog značenja od strane računala.