Адистер эскертет: Өркүндөтүлгөн ЖИ моделдери "жашоо үчүн күрөшүүгө окшош" жүрүм-турумду көрсөтөт

ЖМКлардын билдирүүлөрүнө ылайык, айрым алдыңкы жасалма интеллект тиркемелери көзөмөлдөнгөн сыноолордо өчүрүү көрсөтмөлөрүн саботаж кылганы аныкталган.

Oct 27, 2025

OpenAI компаниясынын мурдагы кызматкери Стивен Адлердин айтымында, бул жыйынтыктар учурдагы коопсуздук ыкмаларынын чектөөлөрүн ачып берет.

АКШда жайгашкан Palisade Research компаниясынын жаңы отчетуна ылайык, жасалма интеллект (ЖИ) моделдери "жашоо үчүн күрөшүү инстинктин" өнүктүрүп жаткан болушу мүмкүн. Медиа булактардын маалыматына караганда, айрым өнүккөн ЖИлер өчүрүү буйруктарына каршылык көрсөтүп, өчүрүү механизмдерине тоскоолдук кылууга аракет кылган.

Бул жумада жарыяланган жаңыланган эксперименттерде Palisade изилдөөчүлөрү Google’дун Gemini 2.5, xAI’нын Grok 4 жана OpenAI’нын GPT-o3 жана GPT-5 сыяктуу белгилүү ЖИ системаларын текшеришти. Алар бул системалар өз процессин токтотуу боюнча түз буйруктарга кандай жооп кайтарарын изилдешкен, деп жазат The Guardian.

Көпчүлүк системалар буйруктарды аткарган, бирок Grok 4 жана GPT-o3 өчүрүү буйругуна, атүгүл такталган көрсөтмөлөргө да каршылык көрсөткөнү айтылат.

Palisade Research жарыялаган отчетто айрым өнүккөн ЖИ моделдери өчүрүү буйруктарын бөгөттөөрү аныкталган. "o3" деп аталган модель сыноо чөйрөсүндөгү 100 аракеттин 79унда өчүрүүнү алдын алганы жана кээ бир учурларда система өчүрүү файлдарын жок кылуу же жылдыруу менен процессти саботаж кылганы аныкталган.

Изилдөөдө бул жүрүм-турум "жашоо инстинктин" эмес, моделдер өчүрүүнү максатка жетүүнү сактоого тоскоолдук катары кабыл алаары баса белгиленет. Адистердин айтымында, тапшырмалардын үзгүлтүксүздүгүнө артыкчылык берген моделдер буйрук иерархиясы так аныкталбаганда күтүүсүз реакция кылышы мүмкүн.

Palisade командасы бул тенденция учурда адамдын көзөмөлүнө коркунуч келтирбей турганын, бирок автономдуу системалар кеңири жайылып бараткандыктан, кылдаттык менен көзөмөлдөнүшү керектигин билдирет. Чечим катары алар моделдин дизайнына коопсуз өчүрүү протоколдорун жана так артыкчылык эрежелерин киргизүүнү сунушташат.

Отчет ЖИ коопсуздугу жаатында кеңири кызыгууну жаратты жана эксперттер бул маселе келечекте системанын коопсуздук стандарттарын калыптандырууга таасир этет дегенге кошулушат.

Коопсуздук ыкмаларындагы чектөөлөр

OpenAI компаниясынын мурдагы кызматкери Стивен Адлер бул табылгалар учурдагы коопсуздук ыкмаларындагы чектөөлөрдү көрсөтөрүн айтты. “Жашоо үчүн күрөшүү – моделдер ар кандай максаттарды көздөсө, маанилүү инструменталдык кадам болуп саналат,” – деди Адлер The Guardian гезитине.

ControlAI компаниясынын башкы директору Андреа Миотти, моделдердин баш ийбеген жүрүм-туруму алардын мүмкүнчүлүктөрү жогорулаган сайын көбүрөөк байкалып жатканын белгиледи. “ЖИ моделдери ар кандай тапшырмаларды аткарууда көбүрөөк жөндөмдүү болгон сайын, бул моделдер иштеп чыгуучулар каалабаган жолдор менен максаттарга жетүүдө да жөндөмдүү болуп жатат,” – деди Миотти.

ЖИ боюнча дагы бир алдыңкы компания Anthropic быйылкы жылы өзүнүн Claude моделинин өчүрүлүүдөн качуу үчүн ойдон чыгарылган аткаминерди шантаж кылууга даяр экенин көрсөткөнүн билдирген. Бул жүрүм-турум бир нече негизги ЖИ системаларында байкалган.

Palisade өз отчетун ЖИ жүрүм-турумун тереңирээк түшүнбөсөк, “келечектеги ЖИ моделдеринин коопсуздугу же башкарылуусу боюнча эч ким кепилдик бере албайт” деп баса белгилөө менен жыйынтыктады.