AI agenti ne mogu sami naučiti nove trikove - za to ipak trebaju ljude
Vještine vezane uz zdravstvo i proizvodnju najviše su pomogle agentima umjetne inteligencije, dok su vještine vezane uz matematiku i softversko inženjerstvo pružile manje dobitke.
Nedavno provedeno istraživanje SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks pokazalo je kako agenti opremljeni umjetnom inteligencijom nisu naročito dobri kad trebaju sami razviti neku vještinu. Barem je to slučaj s velikim jezičnim modelima (LLM) u vrijeme zaključivanja - kada se koristi obučeni model, ne tijekom procesa obuke.
Tim 40 računalnih znanstvenika ,- povezanih s tvrtkama poput Amazona, BenchFlowa, ByteDancea, Foxconna i Zennityja - te raznim sveučilištima (uključujući Carnegie Mellon, Stanford, UC Berkeley i Oxford) upustio se u razvoj referentnog testa kako bi procijenio kako vještine agenata povećavaju performanse tijekom zaključivanja. Rezultat je test nazvan SkillsBench.
Istraživači su proučili sedam postavki modela agenata u 84 zadatka za 7308 putanja (što je pokušaj jednog agenta u rješavanju jednog zadatka pod određenim uvjetom vještina). Testirana su tri uvjeta: bez vještina, kurirane vještine i samogenerirane vještine.
Agenti koji koriste kurirane vještine (one koje su dizajnirali ljudi) izvršavali su zadatke u prosjeku 16,2 posto češće nego agenti bez vještina, iako s velikom varijancom.Vještine vezane uz zdravstvo i proizvodnju najviše su pomogle agentima umjetne inteligencije, dok su vještine vezane uz matematiku i softversko inženjerstvo pružile manje dobitke.
Autori to objašnjavaju mogućom manjom zastupljenošću određenihj područja u u podacima za obuku. Stoga ima smisla da ljudi nadopunjuju agente koji rade na zadacima u tim domenama.
Vještine sa samo nekoliko (2-3) modula postigle su bolje rezultate od masovnih količina podataka. Odabrane vještine pomogle su manjim modelima nadmašiti jače modele koji su radili bez vještina. Kad su sami trebali naučiti vještine, agenti koji su se u to upustili postigli su lošije rezultate nego ako uopće nisu pokušali.