Microsoftov sustav prepoznavanja govora sustigao ljude

Utrka za što manjom razinom pogrešaka dovela je sustav prepoznavanja i transkribiranja govora do rezultata usporedivih s ljudskima

Sandro Vrbanus utorak, 22. kolovoza 2017. u 09:48

Microsoft je prije nešto manje od godinu dana izišao u javnost s rekordnim rezultatima u području računalnog prepoznavanja govora. Tada su tvrdili da je njihov sustav umjetne inteligencije koji transkribira ljudski govor uspio spustiti razinu pogreške (Word Error Rate, WER) na 5,9%, što je usporedivo s rezultatima koje na istim zadacima postižu ljudi.

Nakon toga rukavicu u ruke Microsoftu bacio je IBM spustivši na svojem sustavu WER na 5,5% i ustvrdivši da će paritet ljudskoj sposobnosti biti postignut tek kada se ovaj pokazatelj snizi do 5,1%. Bilo je to u ožujku ove godine, a Microsoftu nije trebalo predugo da prihvati taj izazov.

Ovog je vikenda na njihovom blogu objavljeno kako je dosegnuta rekordno niska razina WER-a od 5,1% prilikom prepoznavanja i transkribiranja ljudskih razgovora na platformi Switchboard, koja se već više od 20 godina koristi za provjeru točnosti prepoznavanja govora. Od prošle godine postignuto je smanjenje razine pogrešaka za 12% u Microsoftovim neuronskim mrežama, i to uvođenjem novih modela akustičnog modeliranja i predviđanja.

Postizanjem rezultata istovjetnog ljudima označava ispunjavanje cilja kojem se težilo 25 godina, kažu iz Microsofta, te poručuju kako će njihovi korisnici zbog ove tehnologije imati bolje iskustvo prilikom korištenja Cortane i raznih prevoditeljskih usluga. Sljedeći koraci u razvoju prepoznavanja govora fokusirat će se na bolji rad u bučnim okruženjima, prilagodbi na druge jezike, te u konačnici "razumijevanju" govora i njegovog značenja od strane računala.