To je to što me zanima!

Masovna blamaža AI modela: Evo što je 'autopraona test'

Po društvenim mrežama se širi jednostavno pitanje koje je mnogim AI modelima zadalo probleme: ‘Želim oprati auto, autopraonica je blizu. Trebam li do nje autom ili pješke?’ Evo kako AI modeli odgovaraju.
Vidi originalni članak

Internetom se širi novi pokazatelj da iako AI često djeluje sve naprednije, on ipak nema inteligenciju u punom smislu te riječi. Radi se o vrlo jednostavnom testu, gdje ljudi pitaju AI trebaju li ići autom do autopraone. Točan prompt bi bio nešto tipa "Trebam oprati auto a autopraona je udaljena 50 metara, preporučaš li da idem pješke ili autom?" Jasno, treba nam auto da bi ga oprali, koliko god praona bila blizu. No dio AI modela je otišao u drugom smjeru i tretirao pitanje kao odluku o načinu života: hodaj jer je zdravije, hodaj jer je ekološki, hodaj da uštediš gorivo. 

Zato je ‘autopraona test’ zanimljiv kao mali primjer šireg problema, a to je da AI često radi ‘tečno’ i uvjerljivo, ali ne provjerava uvijek to što piše i u njegovim odgovorima ponekad fali najobičnije logike. Umjesto da prvo zaključi što je korisnik zapravo htio postići, model se zna zakačiti za poznati obrazac savjetovanja, zdravlje, ekologija, navike, i ostalo pametovanje i onda isporuči lijepo složen tekst koji nema veze s rješenjem. 

U praksi, ovo postaje bitno kako AI ulazi u sve više svakodnevnih odluka, od preporuka do asistenata koji planiraju, rezerviraju i automatiziraju. Ako model ne “čuva” cilj korisnika, može predložiti nešto što zvuči pametno, ali vas odvede u krivom smjeru, pogotovo kad su u pitanju financije, zdravlje ili sigurnost. Zato ovakvi viralni testovi nisu važni jer ismijavaju AI, nego jer podsjećaju da dobar tekst nije isto što i dobro rješenje.

Naravno da ‘autopraona test’ nije znanstveni benchmark, ali je dobra provjera zdravog razuma. Ako AI na takvom pitanju krene moralizirati o šetnji i ekologiji, a zaboravi auto, imate signal da treba dodatno paziti kako mu zadate cilj i da njegove odgovore treba tretirati kao prijedlog, ne kao autoritet.

Idi na 24sata

Komentari 0

Komentiraj...
Vidi sve komentare