LLM-ovi nisu naročito dobri u popravljanju računalnog koda
Podjednako je vjerojatno kako će modeli umjetne inteligencije ponoviti pogrešku u računalnom kodu koliko da će je popraviti.

Istraživači su otkrili kako veliki jezični modeli (LLM) imaju tendenciju reproduciranja pogrešnog računalnog koda kada imaju zadatak dovršiti manjkave isječke. Podjednako je vjerojatno kako će modeli umjetne inteligencije ponoviti pogrešku koliko i da će je popraviti
Istraživanje je obuhvatilo OpenAI-jeve modele GPT-4o, GPT-3.5 i GPT-4, CodeLlama-13B-hf tvrtke Meta Platforms te Googleov Gemma-7B, BigCodeov StarCoder2-15B i Salesforceov CodeGEN-350M. Svi su dobili isti zadatak: ispuniti isječke koda iz skupa podataka Defects4J.
Stope pogrešaka za prijedloge LLM koda bile značajno veće kada se od njih tražilo dovršavanje koda s bugovima. Istraživače je iznenadilo to što su, u prosjeku, 44,44 posto bugova koje naprave LLM-ovi potpuno su identični povijesnim bugovima. Za GPT-4o ovaj broj je čak 82,61 posto.
Stupanj do kojeg testirani modeli "pamte" greške na koje se susreću u podacima o obuci varira od 15 posto do 83 posto. Najgori je bio GPT-4o s 82,61 posto, najbolji Gemma7b s 15 posto. Nije se puno boljim pokazao ni DeepSeekov R1.
Za modele koji češće reproduciraju bugove iz podataka o obuci manje je vjerojatno kako će "uvesti inovacije i generirati kod bez grešaka". Modeli umjetne inteligencije imali su više problema s pozivanjem metode i povratnim izjavama nego s jednostavnijom sintaksom poput if izjava i deklaracija varijabli.
Autori ističu kako modeli moraju bolje razumjeti programske sintakse i semantike, robusnije otkrivati i rukovati pogreškama i dobiti bolje algoritme za naknadnu obradu koji mogu uhvatiti netočnosti u rezultatima modela. Bolja integracija s razvojnim alatima poput integriranih razvojnih okruženja može pomoći u ublažavanju pogrešaka.