Zvuči banalno, ali većina multimodalnih AI modela ozbiljno griješi kad treba pročitati vrijeme na analognom satu. IEEE Spectrum opisuje više studija koje su to testirale i došle do sličnog zaključka: ljudima lagan zadatak, za AI vrlo težak.
AI možda zna skoro sve, ali iznenadit će vas što ne zna
Najnoviji osvrt IEEE Spectruma koji proučava AI sustave sažima rezultate više radova: modeli koji bez problema rješavaju kvizove i opisuju slike zapinju na jednostavnim satovima s dvije kazaljke. I kada prepoznaju brojčanik, često krivo zbroje kutove ili zamijene satnu i minutnu kazaljku, pa daju krivo vrijeme. Autori ističu da je to dobra “rengenska snimka” ograničenja današnjih sustava, jer zadatak traži i precizno viđenje i osnovno prostorno zaključivanje.
Jedan od novih testova je ClockBench: 180 satova i 720 pitanja, od klasičnih brojčanika do rimskih brojki i stiliziranih kazaljki. Neuvježbani ljudi postižu oko 89% točnosti, dok vrhunski modeli značajno zaostaju. Istraživači zaključuju da ni “razmišljanje u koracima” ne pomaže ako je vizualna percepcija nesigurna, jer i mali pomaci kazaljki i “čudni” dizajni ruše rezultat.
Slične nalaze ima i tim sa Sveučilišta u Edinburghu: modeli često pogrešno tumače položaje kazaljki, a kada se zadatak proširi na kalendare, greške rastu. Zaključak je da trenutni sustavi više pogađaju uzorke nego što “razumiju” pravila geometrije i vremena, pa su osjetljivi na detalje koje ljudi lako zanemare.
Jedan rad posebno je analizirao GPT-4.1 i pokazao da se ciljanom doradom (fine-tuning) rezultat može popraviti, ali i tada zadatak ostaje osjetljiv na izobličene brojčanike i netipične kazaljke. Drugim riječima, “čitati sat” za AI još nije riješen problem, samo se može donekle ublažiti treniranjem.
Ovakvi testovi lijepo podsjećaju da modeli nisu univerzalno pouzdani “vid i mozak”, nego skup sposobnosti s rupama. Ako AI u vašoj aplikaciji treba tumačiti instrumente, brojčanike, kalendare ili dijagrame, treba ga posebno učiti i provjeravati, ali i zadržati ljudski nadzor.
