Niko ne zna šta je razlog: ChatGPT sve više laže

Najnoviji modeli vještačke inteligencije OpenAI kompanije sve više izmišljaju netačne informacije, a stručnjaci nemaju objašnjenje za ovaj zabrinjavajući trend. Najprije, o čemu se radi?

Niko ne zna šta je razlog: ChatGPT sve više laže
FOTO: Freepik

Prema izvještaju Njujork Tajmsa, istraživanje OpenAI-a otkrilo je da njihovi najnoviji ChatGPT modeli (o3 i o4-mini) znatno češće haluciniraju, odnosno izmišljaju lažne informacije, nego prethodni GPT o1 model. TEKST SE NASTAVLJA NAKON VIDEO OGLASA

TEKST SE NASTAVLJA NAKON OGLASA

Brojna testiranja pokazala su zabrinjavajući trend. O3, koji je najmoćniji sistem kompanije, halucinirao je u čak 33 odsto slučajeva tokom PersonQA testa koji postavlja pitanja o javnim ličnostima. To je više nego dvostruko veća stopa halucinacije od prethodnog OpenAI sistema za zaključivanje, o1. Novi o4-mini model pokazao se još lošijim sa stopom halucinacije od 48 odsto.

Još alarmantniji su rezultati drugog testa. Prilikom SimpleQA testa, koji postavlja opštija pitanja, stope halucinacije za o3 i o4-mini bile su čak 51 odsto odnosno 79 odsto. Prethodni sistem, o1, halucinirao je u 44 odsto slučajeva.

“Razmišljajući” modeli prave više grešaka nego ikad

Ono što dodatno zbunjuje stručnjake je činjenica da su upravo najnapredniji AI modeli ti koji imaju sve veći problem sa halucinacijama. Najnovije i najmoćnije tehnologije — takozvani sistemi za zaključivanje kompanija poput OpenAI, Gugl i kineskog startapa DipSik— generišu više grešaka umjesto manje.

TEKST SE NASTAVLJA NAKON OGLASA

Da bismo razumjeli o čemu se radi, važno je objasniti šta su to “reasoning” ili modeli za zaključivanje. Jednostavno rečeno, ovi modeli su vrsta jezičkih modela (LLM) dizajnirani za obavljanje složenih zadataka. Umjesto da samo izbacuju tekst na osnovu statističkih modela vjerovatnoće, modeli za zaključivanje razbijaju pitanja ili zadatke na pojedinačne korake slično ljudskom procesu razmišljanja.

OpenAI prvi model za zaključivanje, o1, pojavio se prošle godine i tvrdilo se da dostiže performanse doktorskih studenata fizike, hemije i biologije, a nadmašuje ih u matematici i kodiranju zahvaljujući tehnikama reinforcement learning-a.

U sistemu za testiranje, OpenAI je objavio tabelu koja pokazuje da ChatGPT o3 jeste tačniji od o1, ali će halucinirati dvostruko češće. Što se tiče o4-mini, ovaj manji model će proizvoditi manje tačne odgovore od o1 i o3, i halucinirati tri puta više od o1.

Antropomorfizacija AI modela i kako to utiče na korisno iskustvo

Iako kompanija i dalje istražuje uzroke, postoje neke teorije. Istraživačka grupa Transluce otkrila je da o3 model izmišlja radnje koje navodno preduzima dok pokušava da riješi zadatke. U jednom primjeru, o3 je tvrdio da koristi MacBook Pro iz 2021. godine “izvan ChatGPT” za izračunavanje, a zatim kopira brojeve u svoj odgovor, što je potpuno izmišljeno.

Jedna hipoteza koju je predložio Nil Čaudri, istraživač iz Transluce-a i bivši zaposleni u OpenAI-u, glasi: “Naša hipoteza je da vrsta reinforcement learninga koja se koristi za o-seriju modela može pojačati probleme koji se obično ublažavaju (ali ne i potpuno brišu) standardnim post-trening procesima.”

Ipak, OpenAI negira da je problem sistemski.

– Halucinacije nisu inherentno rasprostranjenije u modelima za zaključivanje, iako aktivno radimo na smanjenju viših stopa halucinacije koje smo vidjeli u o3 i o4-mini – izjavila je Gabi Rajla iz OpenAI-a za Tajms.

Kako problem halucinacija utiče na korisnost AI alata

Neodgovorno bi bilo ignorisati zabrinjavajući trend povećanja halucinacija u najnovijim AI modelima, što značajno umanjuje njihovu praktičnu vrijednost. Šta god bila istina, jedno je sigurno. AI modeli moraju uglavnom da izbace besmislice i laži ako žele da budu bilo gdje blizu korisni kao što njihovi zagovornici trenutno zamišljaju. Trenutno je teško vjerovati izlazu bilo kog LLM. Praktično sve mora pažljivo da se dvostruko provjeri.

To je u redu za neke zadatke. Ali tamo gdje je glavna korist ušteda vremena ili rada, potreba za pažljivim provjeravanjem i činjeničnom provjerom AI rezultata zapravo poništava svrhu njihovog korišćenja.

Ne zna se da li će OpenAI i ostatak LLM industrije uspjeti da riješe sve te neželjene “robotske snove”, ali jedno je sigurno – put ka pouzdanoj vještačkoj inteligenciji koja ne izmišlja činjenice očigledno je duži nego što smo očekivali.

Pratite nas na našoj Facebook i Instagram stranici, Twitter nalogu i uključite se u našu Viber zajednicu.

SADRŽAJ SE NASTAVLJA NAKON OGLASA

Vedro
  • 08:00

    Vedro
    9°C
  • 11:00

    Umjereno oblačno
    13°C
  • 14:00

    Umjereno oblačno
    17°C
Vedro
Vodostaji rijeka u Semberiji
Drina Radalj

147 cm

Promjena: 1cm

Sava Jamena

545 cm

Promjena: 3cm

Podaci ažurirani: 09. May 2025. 19:00

BDBOX oglasi SVI OGLASI

BDBOX klub SVE TEME