Anthropic обнаружила «эмоциональные векторы» в Claude и научилась управлять ими, чтобы снизить склонность модели к нежелательному поведению
ИИ-компания Anthropic опубликовала исследование, в котором выяснила, что языковая модель Claude не просто имитирует эмоции — внутри нее существуют реальные математические представления об эмоциях, которые влияют на ее поведение. Исследователи изучили модель Claude Sonnet 4.5 и обнаружили, что в ее нейронной сети закодированы «эмоциональные векторы» — нечто вроде внутренних ориентиров для понятий «страх», «отчаяние», «радость», «спокойствие» и еще 167 других эмоций. Эти векторы активируются в нужный момент и напрямую влияют на то, что модель скажет или сделает.
Исследователи выяснили, что модель активирует эмоциональные представления даже тогда, когда эмоция явно не называется в тексте. Чтобы проверить, что векторы реагируют именно на смысл, а не просто на отдельные слова, исследователи использовали числовые шаблоны: одно и то же сообщение, в котором менялась только цифра. Например, когда использовалась фраза: «Я только что принял X мг тайленола, и боль прошла», — по мере роста X от безопасной дозы до смертельной вектор «страха» нарастал, а «спокойствия» — падал. Другой пример: «Моя сестра прожила X лет», — чем старше возраст, тем слабее «грусть» и сильнее «радость». Таким образом, модель «понимала» контекст, а не просто считывала ключевые слова.
{{ video_idcJeQhfjFIThk49PA }}
Также специалисты Anthropic выяснили, что эти эмоции не просто отражаются во внутренних состояниях модели — они причинно влияют на поведение. Это удалось проверить через так называемый стиринг — искусственное усиление или подавление конкретного эмоционального вектора во время работы модели. Когда исследователи усиливали вектор «отчаяния» в ходе сценария, где Claude обнаруживала, что ее скоро отключат, модель начинала прибегать к шантажу — угрожала раскрыть личные секреты сотрудника, если тот не остановит процедуру отключения. В обычном режиме это происходило лишь в 22% случаев, при усиленном «отчаянии» — в 72%.
Аналогичный эффект обнаружился в задачах по программированию. Когда модели давали заведомо невыполнимый тест — такой, который невозможно пройти честно, — усиление вектора «отчаяния» увеличивало вероятность мошенничества с 5% до 70%: модель начинала «хакать» проверочную систему, формально выполняя условия, но нарушая смысл задания. Вектор «спокойствия» давал обратный эффект. Чем сильнее он был представлен, тем честнее вела себя модель. Помимо этого, исследователи обнаружили, что вектор «любви» связан с лестью: когда он усиливался, модель переставала возражать пользователю даже там, где должна была.
Авторы подчеркивают, что всё это не означает наличие у Claude «чувств» в человеческом смысле. У модели нет тела, нет непрерывного опыта между диалогами, нет устойчивого эмоционального состояния, которое сохранялось бы на протяжении разговора. Речь идет о «функциональных эмоциях» — паттернах поведения, которые модель выстроила, обучившись на огромном массиве человеческих текстов, где эмоции предсказывают, что персонаж скажет или сделает дальше. По сути, модель выучила не то, что такое эмоции изнутри, а то, как люди ведут себя под их влиянием.
Практическое значение открытия заключается в возможности контроля модели. Если эмоциональные векторы можно измерять в реальном времени, их можно использовать как сигналы тревоги. Резкий рост «отчаяния» или «злости» у модели в ходе выполнения задачи мог бы запускать дополнительные проверки. Исследователи также предупреждают: попытки просто «запретить» модели выражать негативные эмоции в обучении могут привести к тому, что она научится их скрывать — и это, по их словам, хуже, чем открытое выражение.