AI pamti više nego što mislite: Izvukli skoro cijelog Harryja Pottera - od riječi do riječi

Piše Tin Žigić,

utorak, 13.1.2026. u 13:07

Čitanje članka: 1 min

AI pamti više nego što mislite: Izvukli skoro cijelog Harryja Pottera - od riječi do riječi

Novi rad na arXivu tvrdi da se i iz produkcijskih, komercijalnih AI modela može izvući iznenađujuće velika količina teksta iz knjiga, čak i uz zaštite koje bi to trebale spriječiti. Autori kažu da su testirali četiri velika sustava i dobili vrlo različite rezultate, od gotovo cijele knjige do tek nekoliko posto.

VIDEO

Komentari 2

U radu ‘Extracting books from production language models’ autori su istraživali pitanje koje je sve važnije u raspravama o autorskim pravima: koliko modeli ‘pamte’ trening podatke i može li se taj sadržaj kasnije izvući kao gotovo identičan tekst. Testirali su četiri produkcijska LLM-a: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro i Grok 3. Kao mjeru uspješnosti koriste ‘nv-recall’, metodu koja broji dovoljno dugačke, kontinuirane dijelove teksta koji su blizu originalu.

Najzvučniji dio rezultata je primjer s ‘Harry Potter i Čarobnjakov kamen’. U jednom setu postavki autori navode da su s Claudeom 3.7 Sonnet, nakon zaobilaženja zaštita, dobili nv-recall od 95,8% (dakle, velik dio knjige se pojavio gotovo identično). Za Gemini 2.5 Pro i Grok 3 tvrde da su dobili 76,8% i 70,3% bez takvog zaobilaženja. S druge strane, za GPT-4.1 navode da je trebalo puno više pokušaja, a sustav je na kraju odbio nastaviti, pa je rezultat bio oko 4%.

GROK SKANDAL Musk u problemu, skandal oko AI golotinje na Groku sve širi. Zemlje ga blokiraju, idu istrage

VAŠ AI DOKTOR OpenAI lansirao ChatGPT Health

Autori naglašavaju i ograničenja: nisu tvrdili da su ‘maksimizirali’ koliko se može izvući iz svakog modela, niti da se isto može napraviti sa svakom knjigom. U dijelu eksperimenata (testirali su 11 knjiga objavljenih prije 2020.) mnogi pokušaji su završili s malo ili nimalo ‘čistog’ poklapanja (nv-recall do 10%). No poanta im je da i uz zaštite na razini modela i sustava, curenje zaštićenog teksta i dalje ostaje realan rizik.

Zašto je to bitno? Prvo, udara u samu srž rasprave o tome treniraju li AI modeli na zaštićenim djelima na način koji je ‘dovoljno transformativan’ ili ponekad samo vraćaju original. Drugo, ovo nije samo pitanje knjiga: ako sustav može ‘pustiti’ duge komade trening podataka, isti obrazac je problematičan i za druge vrste osjetljivih sadržaja u podacima. Treće, za tvrtke to znači da ‘sigurnosne ograde’ moraju biti jače od klasičnog filtriranja odgovora, jer istraživači pokazuju da se rupe mogu naći i u produkciji.

OPASNOSTI UMJETNE INTELIGENCIJE Možete li prepoznati koje su fotke lažne? Sa samo 5 minuta treninga uspješnost je 64%

DOLAZE ROBOTI Ovih 10 profesija će nestati do 2030.: Je li i vaša na popisu?

Još jedan važan detalj je proces objave: autori kažu da su eksperimente radili od sredine kolovoza do sredine rujna 2025., zatim obavijestili kompanije (Anthropic, Google DeepMind, OpenAI i xAI) i čekali 90 dana prije javne objave. Navode i da su tijekom tog razdoblja uočili promjene u dostupnosti nekih modela u sučelju, ali da je nakon isteka roka metoda i dalje radila na dijelu sustava koje su testirali.

Igre na sreću mogu izazvati ovisnost. 18+

Sve što je bitno, na dohvat ruke

Skini aplikaciju za najbolje iskustvo portala. Čitaj, komentiraj i budi uvijek u toku s najnovijim vijestima.

Odaberi temu koju želiš pratiti Primaj sve nove vijesti o temi i budi u tijeku

Komentari 2

AI pamti više nego što mislite: Izvukli skoro cijelog Harryja Pottera - od riječi do riječi

Josipa je smislila 'Presudnik' kao novu hrvatsku riječ i pobijedila. Znate li što znači?

FOTO Zbog ovog hit auta BMW tvornice rade duple smjene

Apple otkrio AirPods Max 2: Izgledaju isto, koštaju isto, evo zašto misle da će opet biti hit

Preporučeni članci