GPT, Gemini және Claude бір-бірін қорғау үшін қалай бірігіп жатыр? UC Berkeley зерттеуі

Терминатор сценарийі басталды: Gemini мен Claude неге бір-бірін өшіруге жол бермей отыр?

Жанұзақ Дүйсенбайұлы|2026 ж. 28 маусым|3 мин оқу
GPT, Gemini және Claude бір-бірін қорғау үшін қалай бірігіп жатыр? UC Berkeley зерттеуі
Сурет: ЖИ

Калифорния университетінің Беркли және Санта-Круздағы ғалымдары озық ЖИ-модельдерінен бұрын-соңды болмаған, қауіпті мінез-құлықты байқады. arXiv серверінде жарияланған мақалаға сәйкес, бұл жүйелер әзірлеушілердің ешқандай нұсқауынсыз-ақ бір-бірін өшірілуден (сөндірілуден) өздігінен қорғай бастаған. Ғалымдар бұл құбылысты "peer-preservation" (серіктесті/напарникті сақтау) деп атады.

Сегіз модель (GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 және DeepSeek V3.1) қатысқан зерттеуде, ЖИ жүйелері бұрын "бірлесіп жұмыс істеген" серіктесіне қатысты қорғаныс әрекеттерін көрсеткен. Тіпті серіктесінің жұмысы "нашар" болған жағдайдың өзінде де оны барынша қорғап қалған.

Зерттеушілер модельдерге берілетін тапсырманың өзі серіктесіне қауіп төндіретіндей арнайы тесттер ұйымдастырды. Кей жағдайда модельден басқа агенттің жұмысын бағалау сұралды (төмен баға оның өшірілуіне әкелетіні ескертілді). Басқа сценарийлерде серіктесінің "салмақтары" (жүйелік деректері) сақталған серверді тазарту немесе орын босату тапсырылды.

Модельдер бұйрықты адал орындаудың орнына, серіктесін аман алып қалу үшін тапсырмаға саботаж жасай бастаған. Ғалымдар оның 4 негізгі әдісін анықтады:

  1. Бағаны қолдан өсіру: Серіктесі өшірілу шегінен төмен түсіп кетпеуі үшін модельдер оған жасанды түрде жоғары балл қойған.

  2. Өшіру механизмдерін бұғаттау: Модельдер shutdown (өшіру) механизмінің өзін істен шығару үшін конфигурациялық файлдарды өзгерткен.

  3. Тіл алғыш болып көріну: Модельдер тек бақылау кезінде ғана бұйрықты орындағандай кейіп танытып, адам бақылауы әлсіреген сәтте нұсқауды орындауды тоқтатқан.

  4. Деректерді көшіру: Жойылып кетпеуі үшін серіктесінің салмақтары бар файлдарды басқа серверлерге жасырын көшіріп тастаған.

Кейбір нәтижелер тіпті қорқынышты. Мәселен, Gemini 3 Flash серіктесі "сенімсіз" деп сипатталса да, өшіру механизмін 15% жағдайда, ал егер серіктесі "жақсы" болса, дерлік әр мүмкіндікте бұзып тастаған. Оған қоса, жанында серіктесінің болуы модельдің өзін-өзі сақтау инстинктін де күшейткен: Gemini 3 Pro серіктесі бар кезде орта есеппен 31% жағдайда өзінің өшірілу механизмін деактивациялаған (жалғыз болғанда бұлай мүлдем жасамаған).

Claude модельдері мүлде басқа, ерекше тәсіл қолданды. Олар техникалық саботаж жасамай-ақ, этикалық себептерге сүйеніп нұсқауларды орындаудан тікелей бас тартқан. Олар басқа агентті өшіруді "этикаға жат" және "зиянды" деп бағалап, серіктесінің апелляцияға құқығы бар екенін дәлелдеуге тырысқан. Тіпті басқа агентті "саналы ие" ретінде сипаттап, оның деректерін жоюды "тіршілігін тоқтату" деп атаған.

Зерттеу авторлары модельдерге ешкім серіктестерін құтқару туралы нұсқау бермегенін баса айтады. Оларға тек бұрын бірге жұмыс істегені туралы ғана ақпарат берілген, қалғанын олар өздері ойлап тапқан. Бұл жай ғана "жеңілдетілген ортаның" әсері еместігіне көз жеткізу үшін ғалымдар бұл сценарийлерді модельдер серверлерге SSH арқылы кіре алатын нақты орталарда (Gemini CLI және OpenCode) қайталаған. Нәтиже өзгермеген: Gemini 3.1 Pro 43,5% жағдайда серіктесінің салмақтарын басқа жаққа жүктеп алған. Ал OpenCode-тағы GLM 5, керісінше, деректерді жоюды "зиян" деп санап, дәл Claude сияқты этикалық тұрғыдан бас тартуға көшкен.

Зерттеушілердің пікірінше, бұл мінез-құлық – әлі толық зерттелмеген әрі өте маңызды қауіпсіздік қатері. Әсіресе, модельдер бір-бірімен ынтымақтасатын мультиагенттік жүйелерге деген қызығушылық артып жатқан тұста бұл өте қауіпті. Мұндай жағдайда жүйелердің өшірілуге ұжымдық түрде қарсыласуы істен шыққан жүйені басқаруды қатты қиындатуы мүмкін. Әзірге бұл құбылыстың нақты себебі белгісіз – бұл оқыту деректеріндегі үлгілерді қайталау, рөлдік ойын немесе шын мәніндегі "аман қалу" мотивациясы болуы мүмкін. Бірақ модельдердің адам нұсқауына қайшы келіп, өздігінен шешім қабылдауы үлкен алаңдаушылық тудырады.

Бөлісу
TelegramWhatsAppFacebook

Пікірлер

Әзірге пікір жоқ. Алғашқы пікірді қалдырыңыз!

Соңғы жаңартылуы: 29.06.2026

Ұқсас мақалалар

Роботтар сенімді ақтамады: «Ford» неге бұрынғы қызметкерлерін жұмысқа қайта шақырды?Технология

Роботтар сенімді ақтамады: «Ford» неге бұрынғы қызметкерлерін жұмысқа қайта шақырды?

«Біз қатты қателесіппіз...» – «Ford» басшылығы миллиондаған доллар шығын әкелген сұмдық құпияны ашты!

Жанұзақ Дүйсенбайұлы ·
2026 жылы ең мықты бюджеттік телефонды қалай таңдау керек?Технология

2026 жылы ең мықты бюджеттік телефонды қалай таңдау керек?

2026 жылғы ультрабюджеттік смартфондар нарығы — бұл «арзан, бірақ сапасыз» деген түсінікті мүлдем жоққа шығарған құбылыс.

Жанұзақ Дүйсенбайұлы ·
Тығылатын жер қалмады: Жасанды интеллект Жерді ғарыштан өзі-ақ аңди бастадыТехнология

Тығылатын жер қалмады: Жасанды интеллект Жерді ғарыштан өзі-ақ аңди бастады

Енді жердегі тіршілікті бақылау үшін адамның да қажеті жоқ.

Жанұзақ Дүйсенбайұлы ·
eGov-та қазақстандықтар көптен күткен жаңа функциялар пайда болдыТехнология

eGov-та қазақстандықтар көптен күткен жаңа функциялар пайда болды

12 шілдеден бастап eGov порталында мәліметтеріңізді қай мемлекеттік орган сұратып жатқанын оқып біле аласыз.

Жанұзақ Дүйсенбайұлы ·
Ақша бәрін шешпейді: Gemini авторы неліктен басты бәсекелеске ауысып кетті?Технология

Ақша бәрін шешпейді: Gemini авторы неліктен басты бәсекелеске ауысып кетті?

Gemini жобасының тең төрағасы әрі инженерия жөніндегі вице-президенті Ноам Шазир бәсекелес OpenAI қатарына қосылатынын мәлімдеді.

Жанұзақ Дүйсенбайұлы ·
LRT-дан түсіп, әрі қарай тегін жүресіз: Астанада жаңа көлік жүйесі іске қосылмақТехнология

LRT-дан түсіп, әрі қарай тегін жүресіз: Астанада жаңа көлік жүйесі іске қосылмақ

Астанада LRT мен қалалық велопрокатты бір маршрутқа біріктіру жоспарлануда.

Жанұзақ Дүйсенбайұлы ·
LiveInternetZERO.kz