To je to što me zanima!

OpenAI je objavio ogromnu nadogradnju: Chat GPT postaje najbolji alat za stvaranje slika?

OpenAI lansirao ChatGPT Images 2.0! Sad stvara slike kao nikad prije, s nevjerojatnim tekstom i preciznim detaljima. Bolje "razmišljanje" stavlja ga uz bok s Googleovim Geminijem.
Vidi originalni članak

OpenAI je predstavio značajnu nadogradnju za svoj alat za generiranje slika. Nova verzija, nazvana ChatGPT Images 2.0, donosi promjenu u načinu na koji AI chatbot obrađuje vizualne zahtjeve, prelazeći s brze interpretacije na pristup koji više nalikuje promišljenoj izradi. Slike se sada ponašaju više kao odgovori, izgrađeni na temelju razumijevanja onoga što je zatraženo, a ne kao slobodna aproksimacija.

Na predstavljanju uživo, izvršni direktor OpenAI-ja Sam Altman i njegov tim istaknuli su kako novi model predstavlja veliki iskorak.

​- Images 2.0 je ogroman korak naprijed. To je kao da smo odjednom prešli s GPT-3 na GPT-5. Njegova sposobnost stvaranja iznimno lijepih stvari je nevjerojatna. Tim je ovime stvarno napravio sjajan posao i jedva čekamo vidjeti što ćete sve stvoriti - rekao je Altman.

Precizniji i dosljedniji vizuali

Najočitije poboljšanje vidljivo je na područjima koja su prije predstavljala problem. Tekst unutar slika najočitiji je primjer. Generiranje postera, jelovnika, slajdova i bilo čega drugog što se oslanja na čitljivost riječi tradicionalno je bilo nepouzdano. Slova bi se izobličila, razmaci bi bili neujednačeni, a značenje bi se gubilo. ChatGPT Images 2.0 pokazuje značajan napredak u generiranju jasnog i ispravno napisanog teksta, čak i na više jezika.

Model se također sigurnije nosi sa strukturom. Ako zatražite izgled s određenim elementima na određenim mjestima, rezultat će vjerojatnije odražavati tu namjeru. Čini se da model tretira uputu manje kao prijedlog, a više kao skup instrukcija. To se očituje i u manjim detaljima. Više slika generiranih iz iste ideje ostaje vizualno dosljedno, bilo da se radi o prepoznatljivosti lika ili održavanju zajedničkog stila kroz cijeli set.

Korisnici sada mogu generirati slike u rezoluciji do 2K i u širem rasponu omjera stranica, što alat čini prikladnijim za različite dizajnerske potrebe.

Ključna novost je korak "razmišljanja"

Najveća promjena koju ChatGPT Images 2.0 donosi jest dodavanje koraka "razmišljanja" prije same generacije, što modelu omogućuje da obradi uputu prije nego što se odluči za konačni rezultat.

U praksi to znači da može raščlaniti zahtjev na dijelove, odlučiti kako bi se ti dijelovi trebali uklopiti i zatim proizvesti sliku koja odražava taj interni plan. Također se može osloniti na dodatni kontekst, poput učitanih datoteka ili drugih internetskih izvora. Iako generiranje slike traje nešto duže, rezultat je bolji i vjerojatno štedi vrijeme korisnika jer smanjuje potrebu za ponovljenim pokušajima.

Ovdje generiranje slika počinje nalikovati ponašanju naprednih tekstualnih modela. Proces više nije isključivo reaktivan, već interpretativan. Izlaz odražava niz odluka, a ne samo jedan prolaz. Ta je promjena najvažnija kada zahtjev ima više slojeva, poput višedijelnog dizajna ili narativnog slijeda.

MRAČNA STRANA ŠEFA CHAT GPT-A Tko je zapravo Sam Altman? Šefa OpenAI-ja suradnici često opisuju kao lažljivca i sociopata

Jača konkurencija Googleovom Geminiju

Kako se konkurencija u području multimodalne umjetne inteligencije zaoštrava, OpenAI sada može istaknuti ChatGPT Images 2.0 kao jačeg suparnika Googleovom modelu Gemini. Gemini se snažno usredotočio na povezivanje teksta, slika i konteksta u jedinstven sustav. Iako neki smatraju da konkurentski modeli možda i dalje imaju prednost u čistom fotorealizmu, čini se da se ChatGPT ističe u pridržavanju uputa, iscrtavanju teksta i stvaranju strukturiranih izgleda.

Bolje "razmišljanje", osobito kod teksta, znači da se ChatGPT može približiti snagama Geminija u složenim, multimodalnim zadacima. Iako ga to ne čini jasnim pobjednikom, stavlja ga u ravnopravniji položaj.

Utjecaj na kreativne profesije i etička pitanja

Napredak alata za generiranje slika potiče rasprave o budućnosti kreativnih profesija. Dok se neki profesionalci boje gubitka poslova, drugi ove alate vide kao moćne pomoćnike koji mogu unaprijediti kreativnost i pojednostaviti radne procese.

Istovremeno, sposobnost stvaranja vrlo realističnih, AI generiranih slika pridonosi krizi povjerenja u digitalne sadržaje. Postaje sve teže razlikovati stvarne od sintetičkih medija, što ima značajne implikacije na širenje dezinformacija. OpenAI navodi da su implementirali sigurnosne protokole i koriste C2PA metapodatke kako bi osigurali dokaz o podrijetlu stvorenih slika.

*uz korištenje AI-ja
Idi na 24sata

Komentari 0

Komentiraj...
Vidi sve komentare