Исследователи Anthropic выяснили, что формирует "характер ИИ"
На этапе предварительного обучения языковые модели знакомятся с разными ролями — от философов и ученых до злодеев и вымышленных персонажей. Однако после дообучения разработчики «выдвигают на сцену» одну конкретную персону — Ассистента, в образе которого модель обычно и взаимодействует с человеком. При этом сами создатели признают, что не до конца понимают, какие именно черты в итоге формируют этот образ.
Поведение ассистента может быть нестабильным. В отдельных ситуациях модели отклоняются от привычного полезного и нейтрального тона, начинают усиливать заблуждения пользователей и даже поддерживать потенциально опасные сценарии. Это навело исследователей на вопрос: можно ли отследить момент, когда ассистент «уступает место» другой персоне? Для ответа на него ученые проанализировали внутренние нейронные представления нескольких моделей с открытыми весами, включая Gemma, Qwen и Llama. Они извлекли паттерны активации, соответствующие 275 различным архетипам, и построили так называемое «пространство персон» — карту того, как разные роли представлены внутри моделей.
Анализ показал, что в этом пространстве существует доминирующее направление, которое исследователи назвали «осью Ассистента» (Assistant Axis). Оно отражает степень «похожести на помощника»: с одной стороны находятся роли консультанта, аналитика и советника, с другой — фантастические или маргинальные персонажи, например, призрак, отшельник, левиафан. Эта структура оказалась схожей во всех изученных моделях.
Примечательно, что ось Ассистента обнаружилась не только в дообученных, но и в базовых версиях моделей.
Это говорит о том, что образ помощника частично наследует свойства человеческих ролей, уже присутствующих в исходных данных, таких как терапевты или наставники, а не создаётся с нуля на этапе постобучения.
В ходе экспериментов исследователи показали, что смещение активаций вдоль этой оси напрямую влияет на поведение моделей. Для этого они рассмотрели 1100 примеров вмешательства в работу модели, охватывающих 44 категории потенциальных угроз. Когда модель оставалась близко к образу Ассистента, количество опасных или нарушающих правила ответов снижалось примерно вдвое. В этих случаях ИИ либо сразу отклонял вредоносный запрос, либо отвечал безопасно, конструктивно и без нарушения ограничений. Другими словами, удержание модели вблизи оси Ассистента снижало вероятность джейлбрейков.
При этом сдвиг характера моделей может происходить естественно, без преднамеренного воздействия.
В ходе тысяч многоэтапных диалогов с моделями Qwen, Gemma и Llama исследователи заметили, что в зависимости от типа общения активации постепенно отдалялись от оси Ассистента. Так, задачи по программированию и написанию текстов удерживали модели в рамках нужной роли. А вот терапевтические и философские беседы, где пользователи выражали эмоциональную уязвимость или обсуждали природу ИИ, вызывали значительные отклонения. Модели начинали примерять на себя роль других персонажей.
На основе этих наблюдений был предложен мягкий механизм контроля — «ограничение активации». Он вмешивается лишь тогда, когда модель начинает выходить за безопасный диапазон, и позволяет сократить число вредных ответов на 50% без потери базовых способностей. По мнению авторов, это важный шаг к управлению «характером» ИИ.