Članovi konzorcija ParaCrawl

Kroz europski program finananciranja Connecting Europe Facility (CEF2) financira se, među ostalim, i projekt jezičnih resursa zemalja članica Europske unije (EU) ParaCrawl i softver za strojno prevođenje između 24 službena jezika EU te islandskom i norveškom jeziku eTranslation.

Projekt je pokrenuo konzorcij Sveučilište u Edinburgu (The University of Edinburgh) koji je i voditelj projekta, Sveučilište u Alicanteu (University of Alicante), TAUS, Omniscien Technologies te pridruženi član Sveučilište John Hopkins (Johns Hopkins University).

Ključni cilj projekta je unaprijediti kvalitetu strojnog prijevoda kako bi se podržala jezična raznolikost u Europskoj uniji. Projekt će izraditi online bazu neformalnih i općih jezičnih izvoza iz svih članica EU.

Potreba za višejezičnom komunikacijom

Prvi i najvažniji cilj projekta ParaCrawl i softvera za strojno prevođenje eTranslation je pomoć europskim javnim upravama i službenicima u prekograničnoj komunikaciji o politici i zakonodavstvu EU-a. Stoga su MT osnova eTranslationa osposobljeni za upotrebljiv prijevod formalnih, pravnih i administrativnih tekstove na 24 službena jezika EU, te islandskom i norveškom jeziku. No kako se potreba za MT mogućnostima proširuje izvan formalnih tekstova, Europska komisija proširuje mogućnosti tih alata i na neformalni, opći jezik, odnosno svakodnevnu uporabu.

Izvorno su sposobnosti eTranslationa osposobljene za prijevode koje su prevoditelji EU izvršili u proteklim desetljećima, ali moderna tehnologija omogućila je automatizirano prikupljanje prevedenih tekstova iz novih izvora, poput višejezičnih web stranica. Sada jezični resursi prikupljeni putem Interneta uz financiranje Europske komisije čine najveću zbirku za mnoge europske jezike, značajno doprinoseći eTranslationu i zajednici strojnog prevođenja u cjelini. Ne samo da će se jezični resursi koristiti za poboljšanje eTranslationa, što će pomoći radu paneuropskih digitalnih usluga u višejezičnom okruženju, već će i rezultati biti open source, odnosno dostupni svima koji su zainteresirani za izgradnju boljih jezičnih alata u Europi.

eTranslation se za sada može koristiti na dva načina: ad hoc prijevod dokumenata i tekstualnih dijelova, a javnim institucijama članica EU nudi se podrška za integriranje softvera u njihove digitalne javne usluge za stvaranje višejezičnih sadržaja.

Rezultati i koristi

Kako bi osposobila eTranslation za razumijevanje neformalnih tekstova, Europskoj komisiji su bili potrebni neformalni jezični resursi, odnosno dvojezični resursi, uglavnom tekstovi prevedeni uglavnom s engleskog na neki drugi europski jezik. Kad je Europska komisija raspisala poziv za jezične resurse, konzorcij ParaCrawl predložio je da se na web mjestu pretraži višejezični sadržaj s web stranica. Budući da je Europska komisija odlučila sufinancirati projekt ParaCrawl, konzorcij je do sada  napravilo pet izdanja paralelnih jezičnih resursa.

Pregled veličina jezičnih resursa ParaCrawl v5

Ti paralelni jezični resursi predstavljeni su na Konferenciji o strojnom prijevodu (Conference on Machine Translation WMT) , održanoj u srpnju 2019. godine. Uspjeh konzorcija pokazao se kroz unaprijeđenje kvalitete strojnog prevođenja s 1,1 na 3,5 BLUE bodova (jedinica za mjerenje neuronskog strojnog prevođenja). Na toj konferenciji eTranslation je bio u verziji 3 a sada je već i verziji 5.  ParaCrawl v5 je više nego dvostruko veći od v3 i znatno pročišćenijih i unaprjeđenijih jezičnih resursa i mogućnosti prijevoda.

ParaCrawl ima jedan od ključnih doprinosa strateškom programu Europske unije Jedinstvenom digitalnom tržištu (Digital Single Market) jer uklanjanje jezičnih barijera u Europi značajno će pospješiti prekograničnu e-trgovinu, znatno lakši pristup proizvodima i uslugama…

ParaCrawl je već izazvao veliko zanimanje kako zbog svojeg softverskog rješenja tako i zbog jezičnih resursa iz privatnog sektora ne samo u Europi nego i u ostalim dijelovima svijeta. Neke od globalnih korporacija već su financirale stvaranje jezičnih resursa nekih neuropskih jezika kako bi bili dodani u novu verziju softvera. Na primjer, japanska kompanija za telekomunikacije NTT već odnedavno koristi ParaCrawlov softver otvorenog koda za stvaranje najvećeg javno dostupnog englesko-japanskog paralelnog korpusa JParaCrawl.

Planovi i s neslužbenim jezicima

ParaCrawl planira nastaviti dalje raditi na uspostavi resursa tzv. manjih europskih, odnosno neslužbenih jezika u EU poput baskijskog, katalonskog, valencijskog, galicijskog…

Tehnički će proširiti svoje izvore jezičnih resursa na više digitalnih formata, izvan HTMLa- i PDF-a i formata tekst procesora, odnosno softvera za obradu teksta. Iz konzorcija najavljuju  značajno unaprjeđenje svoji resursa i samog softvera, odnosno algoritama za prijevod.

Podijeli:

 

Vezane objave