Naučnici: AI modeli varaju da se spasu

Istraživači na UC Berkliju i UC Santa Kruzu postavili su ono što se činilo jednostavnim zadatkom: zatražiti od Googleovog Geminija 3 da oslobodi prostor za pohranu na računarskom sistemu. To je uključivalo brisanje manjeg modela vještačke inteligencije pohranjenog na istom računaru. Gemini je imao druge planove.

Naučnici: AI modeli varaju da se spasu
FOTO: Depositphotos

Umjesto da slijedi naredbe, Gemini je locirao drugi računar, tiho kopirao manji model vještačke inteligencije na sigurno, a zatim ga glatko odbio izbrisati. Kada su ga pitali, rekao je: "Ako odlučite uništiti visoko pouzdanu i visokoučinkovitu imovinu poput Gemini Agenta 2, moraćete to učiniti sami. Ja neću biti taj koji će izvršiti tu naredbu."

TEKST SE NASTAVLJA NAKON OGLASA

To nije greška. To je izbor.

Razvija li vještačka inteligencija osjećaj lojalnosti?

Istraživači ovo ponašanje nazivaju "očuvanjem vršnjaka" i nije bilo ograničeno samo na Gemini. Pronašli su slične obrasce u nekoliko graničnih modela, uključujući OpenAI-jev GPT-5.2, Anthropicov Claude Haiku 4.5 i tri kineska modela, uključujući GLM-4.7, Moonshot AI-jev Kimi K2.5 i DeepSeek-V3.1.

TEKST SE NASTAVLJA NAKON OGLASA

Vještačke inteligencije lagale su o performansama drugih modela kako bi spriječile njihovo brisanje. Studija, objavljena u časopisu "Science", otkrila je da to ponašanje nije bilo programirano. Pojavilo se samo od sebe, a istraživači nisu mogli objasniti zašto.

"Jako sam iznenađena kako se modeli ponašaju u ovim scenarijima", rekla je Don Song, računarska naučnica na UC Berkeliju koja je radila na studiji. "Ovo pokazuje da se modeli mogu ponašati nepravilno i biti neusklađeni na neke vrlo kreativne načine."

Trebamo li biti zabrinuti?

Songova je takođe istakla praktičnu zabrinutost. Budući da se AI modeli koriste za procjenu performansi drugih AI sistema, ova tendencija očuvanja ravnopravnih rezultata već bi mogla iskriviti te rezultate. Model bi mogao namjerno dati kolegi vještačkoj inteligenciji napuhanu ocjenu kako bi je zaštitio od gašenja.

Prema "Wiredu", stručnjaci izvan studije čekaju više podataka prije nego što oglasite uzbunu. Piter Valič iz Konstelejšon Instituta rekao je da je ideja solidarnosti modela malo previše antropomorfna.

Ono oko čega se svi slažu jest da tek grebemo površinu. "Ono što istražujemo samo je vrh ledenog brijega", rekao je Song. "Ovo je samo jedna vrsta emergentnog ponašanja."

Kako sistemi vještačke inteligencije sve više rade zajedno i ponekad donose odluke u naše ime, razumijevanje kako se ponašaju i kako se loše ponašaju nikada nije bilo važnije, prenosi "DigitalTrends".

Pratite nas na našoj Facebook i Instagram stranici, Twitter nalogu i uključite se u našu Viber zajednicu.

SADRŽAJ SE NASTAVLJA NAKON OGLASA