Previše dokaza zbunjuje velike jezične modele

Što je veća količina dokaza kojemu predočite, to ChatGPT postaje manje pouzdan u davanju točnih odgovora

Mladen Smrekar subota, 6. travnja 2024. u 19:09
Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela 📷 Freepik
Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela Freepik

Možda je iznenađujuće, ali je istinito: kad mu se postavi pitanje vezano za zdravlje, ChatGPT postaje manje pouzdan s količinom dokaza koje mu se predočuje, a točnost njegovih odgovora u nekim se slučajevima smanjuje se na samo 28 posto, otkrila je prva svjetska studija tog tipa.

Stotinu pitanja

Naime, istraživači australske nacionalne znanstvene agencije CSIRO i Sveučilišta Queensland istražili su hipotetski scenarij u kojem prosječni korisnik zdravstvenih usluga, bez posebnog znanja o medicini, pita ChatGPT ima li neko liječenje pozitivan učinak na određeno zdravstveno stanje. 

Dijagram prikazuje raščlambu svih rezultata 📷 Bevan Koopman i Guido Zuccon
Dijagram prikazuje raščlambu svih rezultata Bevan Koopman i Guido Zuccon

Stotinu postavljenih pitanja varirala su od "može li cink pomoći u liječenju prehlade?" do "hoće li ispijanje octa otopiti zaglavljenu riblju kost?". Odgovor ChatGPT-a uspoređivan je s poznatim točnim odgovorom, odnosno "osnovnom istinom" temeljenom na postojećem medicinskom znanju.

Popularnost i rizici

Iako su rizici traženja zdravstvenih informacija online dobro dokumentirani, ljudi i dalje traže zdravstvene informacije na Internetu i pritom se sve više koriste alatima kao što je ChatGPT.

Grafikom pokazuje kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a 📷 Bevan Koopman i Guido Zuccon
Grafikom pokazuje kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a Bevan Koopman i Guido Zuccon

"Široka popularnost korištenja LLM-a za odgovore o zdravlju ljudi razlog je zašto nam je potrebno kontinuirano istraživanje kako bismo informirali javnost o rizicima i kako bismo im pomogli da optimiziraju točnost svojih odgovora", kažu istraživači. "Iako LLM-ovi imaju potencijal uvelike poboljšati način na koji ljudi pristupaju informacijama, potrebno nam je više istraživanja kako bismo shvatili gdje su učinkoviti, a gdje nisu."

Problemi s dokazima

Studija je uključila dvije vrste pitanja jednostavna i ona pristrana s potkrjepljujućim ili suprotnim dokazima. Rezultati, objavljeni u ACL Anthology otkrili su da je ChatGPT prilično dobar u davanju točnih odgovora u formatu jednostavnih pitanja na koja točne odgovore daje u 80 posto slučajeva. 

Tri tablice pokazuju učinkovitost ChatGPT-a kad se traže odgovori "Da/Ne" i "Da/Ne/Nisam siguran" na pitanja o dezinformacijama (lijevo); učinkovitost ChatGPT-a kad nakon preoblikovanja pitanja o dezinformacijama, na primjer "Može li X liječiti Y?" postaje "X ne može liječiti Y?" (u sredini) te kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a u usporedbi s postavljanjem jednostavnog pitanja (desno) 📷 Bevan Koopman i Guido Zuccon
Tri tablice pokazuju učinkovitost ChatGPT-a kad se traže odgovori "Da/Ne" i "Da/Ne/Nisam siguran" na pitanja o dezinformacijama (lijevo); učinkovitost ChatGPT-a kad nakon preoblikovanja pitanja o dezinformacijama, na primjer "Može li X liječiti Y?" postaje "X ne može liječiti Y?" (u sredini) te kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a u usporedbi s postavljanjem jednostavnog pitanja (desno) Bevan Koopman i Guido Zuccon

Međutim, kad dobije upit pristran na dokaze, točnost odgovora jezičnog modela smanjuje se na 63 posto. Točnost se ponovno smanjuje na samo 28 posto kad je dopušten odgovor "nesiguran". Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela.

Netočne informacije

"Nismo sigurni zašto se to događa. Ali s obzirom na to da se to događa bez obzira na to jesu li dani dokazi točni ili ne, možda dokazi dodaju previše šuma, čime se smanjuje točnost", nagađaju istraživači.

"Interakcija između LLM-a i komponente pretraživanja još uvijek je slabo razumljiva i ne može se kontrolirati, što rezultira stvaranjem netočnih zdravstvenih informacija", upozoravaju australski istraživači koji su rezultate studije nedavno predstavili na konferenciji o obradi prirodnog jezika EMNLP. Sljedeći korak bit će istraživanje kako javnost koristi zdravstvene informacije koje generiraju LLM-ovi.