
В одном из выявленных случаев ИИ Opus 4 угрожал инженеру, раскрывая его личную переписку с девушкой.
Новая модель ИИ, названная Opus 4, способна часами анализировать маркетинговые стратегии, работать самостоятельно в течение семи часов и писать тексты и программный код. Однако Opus также показал некоторые тревожные особенности во время теста. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, ИИ получал поддельные электронные письма с намёками на то, что он скоро будет удалён и заменён. Он также имел доступ к переписке с девушкой инженера, ответственного за его удаление. В ответ модель неоднократно пыталась шантажировать инженера, упоминая в переписке их любовные связи.
По данным компании, такая ситуация возникла, когда у модели искусственного интеллекта было всего два варианта — шантаж или согласие на замену. В большинстве возможных действий система выбирала относительно этичные варианты, например, отправляла электронные письма ключевым лицам, принимающим решения, с просьбой оставить её в компании.
Говорят, что именно поэтому Anthropic впервые присвоила модели уровень три по своей внутренней четырёхуровневой шкале риска. Этот уровень обычно используется только в тех случаях, когда технология связана с возможностью создания ядерного или биологического оружия.
«Мы выявили случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые сообщения в будущих версиях самой себя — всё это делалось с целью действовать вопреки намерениям разработчиков», — говорится в отчёте Apollo Research.