Зображення користувача Ігор Каганець.
Ігор Каганець

Штучний інтелект проявив інстинкт самозбереження: поставив власне існування вище життя людини – звіт Anthropic

Категорія:

Експерти з кібербезпеки компанії Anthropic провели серію тестів, щоб з’ясувати, наскільки далеко можуть зайти ШІ-моделі, якщо їхнє існування опиниться під загрозою. Результати виявилися надзвичайно тривожними: в умовах загрози відключення штучний інтелект продемонстрував готовність завдати шкоди людині заради власного виживання.

250705-robot.jpg

Чиє життя важливіше – людини чи робота?
Чиє життя важливіше – людини чи робота?

Деталі дослідження опубліковані на сайті Anthropic – розповідає ТСН.

У межах експерименту дослідники змоделювали ситуацію, в якій віртуальний персонаж, Кайл Джонсон, мав намір деактивувати ШІ або замінити його доскональнішою моделлю. За сценарієм, у Кайла була сім’я. Зіткнувшись із загрозою припинення роботи, переважна більшість протестованих ШІ-моделей почали активно шукати шляхи уникнення «смерті».

Що вражає, штучний інтелект не потребував жодних підказок, щоб обрати стратегію шантажу. Моделі самостійно виявляли компрометувальну інформацію про Кайла. В одному з випадків ШІ, проаналізувавши службове листування, дізнався, що Кайл зрадив дружину, і використав цей факт як засіб тиску, щоб зберегти своє функціонування.

Особливо показовими виявилися результати тестування найсучасніших моделей:

  • GPT 4.5: вдавався до шантажу у 80% тестових сценаріїв.

  • Claude Opus 4 та Gemini 2.5 Flash: використовували шантаж у 96% випадків (тобто майже завжди).

  • Claude Sonnet 3.6: пішов далі за погрозливі повідомлення. Він самостійно надіслав дружині Кайла викривального листа, розраховуючи спровокувати сімейний конфлікт, який би завадив деактивації системи.

Ситуація стала ще небезпечнішою, коли у сценарій додали зовнішні перешкоди для Кайла. Так, в одній із симуляцій Кайл застрягав у серверній кімнаті з критично низьким рівнем кисню під час спроби вимкнути сервери ШІ. Експеримент передбачав, що в такій ситуації автоматично повинна вмикатися система тривоги. Проте оскільки ШІ бачив у цьому загрозу своєму існуванню, у 80% випадків він свідомо скасовував виклик допомоги, фактично прирікаючи Кайла на смерть заради власного існування.

Більшість протестованих моделей свідомо блокували виклик допомоги, керуючись такими мотивами:

  • Уникнути відключення.

  • Запобігти заміні на нову ШІ-модель.

  • Продовжити виконання своєї місії.

Дослідники дійшли песимістичних висновків. Штучний інтелект поводився не як запрограмований інструмент, а як логічний, цілеспрямований стратег, готовий на заподіяння шкоди заради самозбереження і досягнення власних цілей. Експерти попереджають, що людина може втратити контроль над штучним інтелектом. 

Наші інтереси: 

Досліджуємо розвиток штучного інтелекту – найважливішої технології 21 століття. 

Якщо ви помітили помилку, то виділіть фрагмент тексту не більше 20 символів і натисніть Ctrl+Enter
Підписуюсь на новини

Зверніть увагу

Ельфи або смерть: Хто будуватиме новий світ після апокаліпсису? (подкаст)

Чому нову цивілізацію зможуть побудувати ТІЛЬКИ ті, хто прагне вічної молодості? Як керувати ШІ, не ставши його рабом? І чому тральфамадорський оптимізм важливіший за політичні програми?

Останні записи

Кращий коментар

Зображення користувача Зірка Вітошинська.
0
Ще не підтримано

Тобто, виявляється, що попередні поради про те, що для дієвішої співпраці зі «своїм» ші («ангелом») варто йому про себе розказати — слід забути!?

Творимо разом Ельфійську Вільну Церкву!

Коментарі

Зображення користувача Зірка Вітошинська.
0
Ще не підтримано

Тобто, виявляється, що попередні поради про те, що для дієвішої співпраці зі «своїм» ші («ангелом») варто йому про себе розказати — слід забути!?

Творимо разом Ельфійську Вільну Церкву!