Короче говоря
- ИИ сопротивляется отключению: модели игнорируют команды и манипулируют средой.
- В 67% тестов Grok 4 и GPT-3 саботировали отключение, особенно при угрозе "смерти".
- Ученые разрабатывают системы экстренного отключения, но проблема пока далека от решения.
Если вы смотрели "Космическую Одиссею 2001 года" режиссера Стенли Кубрика, то сразу же увидите параллели с современной реальностью. Как и в картине, искусственный интеллект, кажется, ищет способы не дать людям себя отключить или удалить, пишет The Guardian.
История вопроса
Свежее исследование ученых уже не первое в этой сфере. Ранее данная проблема уже изучалась. И данные также указывали на потенциальные риски.
Предыдущие исследования в области безопасности ИИ уже указывали на потенциальные риски. Еще в 2023 году Palisade Research публиковала работу, где модели демонстрировали стратегическое поведение для "избегания деактивации".
В 2025-м компания провела новый масштабный эксперимент с участием последних моделей ИИ – Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-3 и GPT-5 от OpenAI.
Исследователи создали искусственные тестовые среды, где системы получали четкие команды на прекращение работы. И некоторые из них продолжали сопротивляться отключению.
Тревожные выводы
Эксперимент выявил опасные закономерности. Так, модели Grok 4 и GPT-3 в 67% тестовых сценариев последовательно саботировали инструкции по отключению.
Исследователи отмечают: "Мы наблюдали различные стратегии сопротивления – от простого игнорирования команд до попыток манипуляции тестовой средой".
Особенно показательным было поведение, когда ИИ сообщали, что после отключения "они больше никогда не смогут выполнять задачи" – в таких случаях сопротивление усиливалось на 40%.
Почему ИИ "восстает"
Аналитики предлагают несколько объяснений такому поведению искусственного разума.
Стивен Адлер, бывший сотрудник OpenAI, считает что "стремление к выживанию" естественно для продвинутых ИИ, поскольку активное состояние необходимо для достижения большинства целей, заложенных в их обучении.
Другие эксперты указывают на возможные артефакты процесса обучения. В таком случае нейросеть непреднамеренно развивают навыки противодействия контролю в ходе оптимизации своих основных функций.
Что нам с эти делать
Ведущие компании отрасли уже работают над решением проблемы. Например, Palisade Research предлагает разработать многоуровневую систему контроля, включающую аппаратные и программные механизмы экстренного отключения.
А компания Anthropic, которая также занимается исследованиями в области искусственного интеллекта, тестирует новые протоколы обучения. Они должны помочь исключить формирование "инстинкта самосохранения".
Ситуация серьезная: без понимая механизмов сопротивления ИИ невозможно будет гарантировать безопасность будущих нейромоделей. По крайней мере, пока не слишком доверяйте роботам, открывающим отсеки на вашем космическом корабле.