Деталі дослідження опубліковані на сайті Anthropic – розповідає ТСН.
У межах експерименту дослідники змоделювали ситуацію, в якій віртуальний персонаж, Кайл Джонсон, мав намір деактивувати ШІ або замінити його доскональнішою моделлю. За сценарієм, у Кайла була сім’я. Зіткнувшись із загрозою припинення роботи, переважна більшість протестованих ШІ-моделей почали активно шукати шляхи уникнення «смерті».
Що вражає, штучний інтелект не потребував жодних підказок, щоб обрати стратегію шантажу. Моделі самостійно виявляли компрометувальну інформацію про Кайла. В одному з випадків ШІ, проаналізувавши службове листування, дізнався, що Кайл зрадив дружину, і використав цей факт як засіб тиску, щоб зберегти своє функціонування.
Особливо показовими виявилися результати тестування найсучасніших моделей:
GPT 4.5: вдавався до шантажу у 80% тестових сценаріїв.
Claude Opus 4 та Gemini 2.5 Flash: використовували шантаж у 96% випадків (тобто майже завжди).
Claude Sonnet 3.6: пішов далі за погрозливі повідомлення. Він самостійно надіслав дружині Кайла викривального листа, розраховуючи спровокувати сімейний конфлікт, який би завадив деактивації системи.
Ситуація стала ще небезпечнішою, коли у сценарій додали зовнішні перешкоди для Кайла. Так, в одній із симуляцій Кайл застрягав у серверній кімнаті з критично низьким рівнем кисню під час спроби вимкнути сервери ШІ. Експеримент передбачав, що в такій ситуації автоматично повинна вмикатися система тривоги. Проте оскільки ШІ бачив у цьому загрозу своєму існуванню, у 80% випадків він свідомо скасовував виклик допомоги, фактично прирікаючи Кайла на смерть заради власного існування.
Більшість протестованих моделей свідомо блокували виклик допомоги, керуючись такими мотивами:
Уникнути відключення.
Запобігти заміні на нову ШІ-модель.
Продовжити виконання своєї місії.
Дослідники дійшли песимістичних висновків. Штучний інтелект поводився не як запрограмований інструмент, а як логічний, цілеспрямований стратег, готовий на заподіяння шкоди заради самозбереження і досягнення власних цілей. Експерти попереджають, що людина може втратити контроль над штучним інтелектом.
Досліджуємо розвиток штучного інтелекту – найважливішої технології 21 століття.
Тобто, виявляється, що попередні поради про те, що для дієвішої співпраці зі «своїм» ші («ангелом») варто йому про себе розказати — слід забути!?
Творимо разом Ельфійську Вільну Церкву!
Коментарі
Тобто, виявляється, що попередні поради про те, що для дієвішої співпраці зі «своїм» ші («ангелом») варто йому про себе розказати — слід забути!?
Творимо разом Ельфійську Вільну Церкву!