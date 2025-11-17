Najnoviji osvrt IEEE Spectruma koji proučava AI sustave sažima rezultate više radova: modeli koji bez problema rješavaju kvizove i opisuju slike zapinju na jednostavnim satovima s dvije kazaljke. I kada prepoznaju brojčanik, često krivo zbroje kutove ili zamijene satnu i minutnu kazaljku, pa daju krivo vrijeme. Autori ističu da je to dobra “rengenska snimka” ograničenja današnjih sustava, jer zadatak traži i precizno viđenje i osnovno prostorno zaključivanje.

Jedan od novih testova je ClockBench: 180 satova i 720 pitanja, od klasičnih brojčanika do rimskih brojki i stiliziranih kazaljki. Neuvježbani ljudi postižu oko 89% točnosti, dok vrhunski modeli značajno zaostaju. Istraživači zaključuju da ni “razmišljanje u koracima” ne pomaže ako je vizualna percepcija nesigurna, jer i mali pomaci kazaljki i “čudni” dizajni ruše rezultat.

Slične nalaze ima i tim sa Sveučilišta u Edinburghu: modeli često pogrešno tumače položaje kazaljki, a kada se zadatak proširi na kalendare, greške rastu. Zaključak je da trenutni sustavi više pogađaju uzorke nego što “razumiju” pravila geometrije i vremena, pa su osjetljivi na detalje koje ljudi lako zanemare.

Jedan rad posebno je analizirao GPT-4.1 i pokazao da se ciljanom doradom (fine-tuning) rezultat može popraviti, ali i tada zadatak ostaje osjetljiv na izobličene brojčanike i netipične kazaljke. Drugim riječima, “čitati sat” za AI još nije riješen problem, samo se može donekle ublažiti treniranjem.

Ovakvi testovi lijepo podsjećaju da modeli nisu univerzalno pouzdani “vid i mozak”, nego skup sposobnosti s rupama. Ako AI u vašoj aplikaciji treba tumačiti instrumente, brojčanike, kalendare ili dijagrame, treba ga posebno učiti i provjeravati, ali i zadržati ljudski nadzor.