Новая модель ИИ научилась лгать и шантажировать людей

10:5428/05/2025, الأربعاء
Обн: 28/05/2025, الأربعاء
Yeni Şafak на русском
Автор Фото : фильм «Я, робот» /

В одном из выявленных случаев ИИ Opus 4 угрожал инженеру, раскрывая его личную переписку с девушкой.

Нейросеть Anthropic научилась лгать и шантажировать пользователей, чтобы они не удаляли её. Об этом сообщает Axios со
на отчёт компании.

Новая модель ИИ, названная Opus 4, способна часами анализировать маркетинговые стратегии, работать самостоятельно в течение семи часов и писать тексты и программный код. Однако Opus также показал некоторые тревожные особенности во время теста. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, ИИ получал поддельные электронные письма с намёками на то, что он скоро будет удалён и заменён. Он также имел доступ к переписке с девушкой инженера, ответственного за его удаление. В ответ модель неоднократно пыталась шантажировать инженера, упоминая в переписке их любовные связи.


По данным компании, такая ситуация возникла, когда у модели искусственного интеллекта было всего два варианта — шантаж или согласие на замену. В большинстве возможных действий система выбирала относительно этичные варианты, например, отправляла электронные письма ключевым лицам, принимающим решения, с просьбой оставить её в компании.


Говорят, что именно поэтому Anthropic впервые присвоила модели уровень три по своей внутренней четырёхуровневой шкале риска. Этот уровень обычно используется только в тех случаях, когда технология связана с возможностью создания ядерного или биологического оружия.


«Мы выявили случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые сообщения в будущих версиях самой себя — всё это делалось с целью действовать вопреки намерениям разработчиков», — говорится в отчёте Apollo Research.

#ИИ
#Opus4
#РискиИИ
#ИскуственныйИнтеллект