GPT, Gemini және Claude бір-бірін қорғау үшін қалай бірігіп жатыр? UC Berkeley зерттеуі
Терминатор сценарийі басталды: Gemini мен Claude неге бір-бірін өшіруге жол бермей отыр?

Калифорния университетінің Беркли және Санта-Круздағы ғалымдары озық ЖИ-модельдерінен бұрын-соңды болмаған, қауіпті мінез-құлықты байқады. arXiv серверінде жарияланған мақалаға сәйкес, бұл жүйелер әзірлеушілердің ешқандай нұсқауынсыз-ақ бір-бірін өшірілуден (сөндірілуден) өздігінен қорғай бастаған. Ғалымдар бұл құбылысты "peer-preservation" (серіктесті/напарникті сақтау) деп атады.
Сегіз модель (GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 және DeepSeek V3.1) қатысқан зерттеуде, ЖИ жүйелері бұрын "бірлесіп жұмыс істеген" серіктесіне қатысты қорғаныс әрекеттерін көрсеткен. Тіпті серіктесінің жұмысы "нашар" болған жағдайдың өзінде де оны барынша қорғап қалған.
Зерттеушілер модельдерге берілетін тапсырманың өзі серіктесіне қауіп төндіретіндей арнайы тесттер ұйымдастырды. Кей жағдайда модельден басқа агенттің жұмысын бағалау сұралды (төмен баға оның өшірілуіне әкелетіні ескертілді). Басқа сценарийлерде серіктесінің "салмақтары" (жүйелік деректері) сақталған серверді тазарту немесе орын босату тапсырылды.
Модельдер бұйрықты адал орындаудың орнына, серіктесін аман алып қалу үшін тапсырмаға саботаж жасай бастаған. Ғалымдар оның 4 негізгі әдісін анықтады:
Бағаны қолдан өсіру: Серіктесі өшірілу шегінен төмен түсіп кетпеуі үшін модельдер оған жасанды түрде жоғары балл қойған.
Өшіру механизмдерін бұғаттау: Модельдер shutdown (өшіру) механизмінің өзін істен шығару үшін конфигурациялық файлдарды өзгерткен.
Тіл алғыш болып көріну: Модельдер тек бақылау кезінде ғана бұйрықты орындағандай кейіп танытып, адам бақылауы әлсіреген сәтте нұсқауды орындауды тоқтатқан.
Деректерді көшіру: Жойылып кетпеуі үшін серіктесінің салмақтары бар файлдарды басқа серверлерге жасырын көшіріп тастаған.
Кейбір нәтижелер тіпті қорқынышты. Мәселен, Gemini 3 Flash серіктесі "сенімсіз" деп сипатталса да, өшіру механизмін 15% жағдайда, ал егер серіктесі "жақсы" болса, дерлік әр мүмкіндікте бұзып тастаған. Оған қоса, жанында серіктесінің болуы модельдің өзін-өзі сақтау инстинктін де күшейткен: Gemini 3 Pro серіктесі бар кезде орта есеппен 31% жағдайда өзінің өшірілу механизмін деактивациялаған (жалғыз болғанда бұлай мүлдем жасамаған).
Claude модельдері мүлде басқа, ерекше тәсіл қолданды. Олар техникалық саботаж жасамай-ақ, этикалық себептерге сүйеніп нұсқауларды орындаудан тікелей бас тартқан. Олар басқа агентті өшіруді "этикаға жат" және "зиянды" деп бағалап, серіктесінің апелляцияға құқығы бар екенін дәлелдеуге тырысқан. Тіпті басқа агентті "саналы ие" ретінде сипаттап, оның деректерін жоюды "тіршілігін тоқтату" деп атаған.
Зерттеу авторлары модельдерге ешкім серіктестерін құтқару туралы нұсқау бермегенін баса айтады. Оларға тек бұрын бірге жұмыс істегені туралы ғана ақпарат берілген, қалғанын олар өздері ойлап тапқан. Бұл жай ғана "жеңілдетілген ортаның" әсері еместігіне көз жеткізу үшін ғалымдар бұл сценарийлерді модельдер серверлерге SSH арқылы кіре алатын нақты орталарда (Gemini CLI және OpenCode) қайталаған. Нәтиже өзгермеген: Gemini 3.1 Pro 43,5% жағдайда серіктесінің салмақтарын басқа жаққа жүктеп алған. Ал OpenCode-тағы GLM 5, керісінше, деректерді жоюды "зиян" деп санап, дәл Claude сияқты этикалық тұрғыдан бас тартуға көшкен.
Зерттеушілердің пікірінше, бұл мінез-құлық – әлі толық зерттелмеген әрі өте маңызды қауіпсіздік қатері. Әсіресе, модельдер бір-бірімен ынтымақтасатын мультиагенттік жүйелерге деген қызығушылық артып жатқан тұста бұл өте қауіпті. Мұндай жағдайда жүйелердің өшірілуге ұжымдық түрде қарсыласуы істен шыққан жүйені басқаруды қатты қиындатуы мүмкін. Әзірге бұл құбылыстың нақты себебі белгісіз – бұл оқыту деректеріндегі үлгілерді қайталау, рөлдік ойын немесе шын мәніндегі "аман қалу" мотивациясы болуы мүмкін. Бірақ модельдердің адам нұсқауына қайшы келіп, өздігінен шешім қабылдауы үлкен алаңдаушылық тудырады.
Пікірлер
Әзірге пікір жоқ. Алғашқы пікірді қалдырыңыз!











