Vlasnički LLM-ovi se muče s azijskim jezicima, čini se

Nakon više iteracija i naštimavanja u singapurskoj tvrtci došli su do modela za koji tvrde kako je bolji od OCR alata, Qwen2, ChatGPT-ja i Googleovog Geminija.

Miroslav Wranka srijeda, 5. studenog 2025. u 11:40
📷 Markus Winkler (Unsplash)
Markus Winkler (Unsplash)

Prema singapurskoj tvrtki za superaplikacije Grab, vlasnički veliki jezični modeli loši su u tumačenju azijskih jezika. Grab je isprobao sustave optičkog prepoznavanja znakova (OCR), ali odabrana tehnologija se "borila s raznolikošću predložaka dokumenata koje je morala obraditi". Stoga su se okrenuli LLM-ovima.

Ustanovili su kako vlasnički modeli često nisu bili u stanju razumjeti jugoistočnoazijske jezike, proizvodili su pogreške i halucinacije, uz visoku latenciju. Modeli otvorenog računalnog koda Vision LLM bili su učinkovitiji, ali ne dovoljno točni za produkciju.

Zbog toga su odlučili izraditi vlastiti Vision LLM. Koristili su pritom Qwen2-VL 2B tvrtke Alibaba Cloud. Izdvojili su sadržaj jugoistočnoazijskih jezika iz Common Crawla, pa zatim izgradili "interni sintetički podatkovni cjevovod za generiranje tekstualnih slika renderiranjem teksta u raznim fontovima, pozadinama i proširenjima".

Tim je zatim pokušao fino ugoditi Vision LLM koristeći Qwen2VL i Low-Rank Adaptation (LoRA). Model su trenirali na odabranim podacima dokumenata, koji su uključivali različite predloške dokumenata na više jezika. 

Postignuta je visoka razina točnosti za indonezijski jezik, dok su tajlandski i vijetnamski ostali su teški za prepoznavanje, kao i dokumenti s nestrukturiranim rasporedima i malim, gustim tekstom.

Nakon više iteracija i naštimavanja došli su do modela za koji tvrde kako je bolji od OCR alata, Qwen2, ChatGPT-ja i Googleovog Geminija. Planiraju izradu novih modela za druge azijske države.