Vlasnički LLM-ovi se muče s azijskim jezicima, čini se
Nakon više iteracija i naštimavanja u singapurskoj tvrtci došli su do modela za koji tvrde kako je bolji od OCR alata, Qwen2, ChatGPT-ja i Googleovog Geminija.
Prema singapurskoj tvrtki za superaplikacije Grab, vlasnički veliki jezični modeli loši su u tumačenju azijskih jezika. Grab je isprobao sustave optičkog prepoznavanja znakova (OCR), ali odabrana tehnologija se "borila s raznolikošću predložaka dokumenata koje je morala obraditi". Stoga su se okrenuli LLM-ovima.
Ustanovili su kako vlasnički modeli često nisu bili u stanju razumjeti jugoistočnoazijske jezike, proizvodili su pogreške i halucinacije, uz visoku latenciju. Modeli otvorenog računalnog koda Vision LLM bili su učinkovitiji, ali ne dovoljno točni za produkciju.
Zbog toga su odlučili izraditi vlastiti Vision LLM. Koristili su pritom Qwen2-VL 2B tvrtke Alibaba Cloud. Izdvojili su sadržaj jugoistočnoazijskih jezika iz Common Crawla, pa zatim izgradili "interni sintetički podatkovni cjevovod za generiranje tekstualnih slika renderiranjem teksta u raznim fontovima, pozadinama i proširenjima".
Tim je zatim pokušao fino ugoditi Vision LLM koristeći Qwen2VL i Low-Rank Adaptation (LoRA). Model su trenirali na odabranim podacima dokumenata, koji su uključivali različite predloške dokumenata na više jezika.
Postignuta je visoka razina točnosti za indonezijski jezik, dok su tajlandski i vijetnamski ostali su teški za prepoznavanje, kao i dokumenti s nestrukturiranim rasporedima i malim, gustim tekstom.
Nakon više iteracija i naštimavanja došli su do modela za koji tvrde kako je bolji od OCR alata, Qwen2, ChatGPT-ja i Googleovog Geminija. Planiraju izradu novih modela za druge azijske države.