Добавить новость
Новости по-русски



Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Исследователи Anthropic выяснили, что формирует "характер ИИ"

На этапе предварительного обучения языковые модели знакомятся с разными ролями — от философов и ученых до злодеев и вымышленных персонажей. Однако после дообучения разработчики «выдвигают на сцену» одну конкретную персону — Ассистента, в образе которого модель обычно и взаимодействует с человеком. При этом сами создатели признают, что не до конца понимают, какие именно черты в итоге формируют этот образ.

Поведение ассистента может быть нестабильным. В отдельных ситуациях модели отклоняются от привычного полезного и нейтрального тона, начинают усиливать заблуждения пользователей и даже поддерживать потенциально опасные сценарии. Это навело исследователей на вопрос: можно ли отследить момент, когда ассистент «уступает место» другой персоне? Для ответа на него ученые проанализировали внутренние нейронные представления нескольких моделей с открытыми весами, включая Gemma, Qwen и Llama. Они извлекли паттерны активации, соответствующие 275 различным архетипам, и построили так называемое «пространство персон» — карту того, как разные роли представлены внутри моделей.

Анализ показал, что в этом пространстве существует доминирующее направление, которое исследователи назвали «осью Ассистента» (Assistant Axis). Оно отражает степень «похожести на помощника»: с одной стороны находятся роли консультанта, аналитика и советника, с другой — фантастические или маргинальные персонажи, например, призрак, отшельник, левиафан. Эта структура оказалась схожей во всех изученных моделях.

Примечательно, что ось Ассистента обнаружилась не только в дообученных, но и в базовых версиях моделей.

Это говорит о том, что образ помощника частично наследует свойства человеческих ролей, уже присутствующих в исходных данных, таких как терапевты или наставники, а не создаётся с нуля на этапе постобучения.

В ходе экспериментов исследователи показали, что смещение активаций вдоль этой оси напрямую влияет на поведение моделей. Для этого они рассмотрели 1100 примеров вмешательства в работу модели, охватывающих 44 категории потенциальных угроз. Когда модель оставалась близко к образу Ассистента, количество опасных или нарушающих правила ответов снижалось примерно вдвое. В этих случаях ИИ либо сразу отклонял вредоносный запрос, либо отвечал безопасно, конструктивно и без нарушения ограничений. Другими словами, удержание модели вблизи оси Ассистента снижало вероятность джейлбрейков.

При этом сдвиг характера моделей может происходить естественно, без преднамеренного воздействия.

В ходе тысяч многоэтапных диалогов с моделями Qwen, Gemma и Llama исследователи заметили, что в зависимости от типа общения активации постепенно отдалялись от оси Ассистента. Так, задачи по программированию и написанию текстов удерживали модели в рамках нужной роли. А вот терапевтические и философские беседы, где пользователи выражали эмоциональную уязвимость или обсуждали природу ИИ, вызывали значительные отклонения. Модели начинали примерять на себя роль других персонажей.

На основе этих наблюдений был предложен мягкий механизм контроля — «ограничение активации». Он вмешивается лишь тогда, когда модель начинает выходить за безопасный диапазон, и позволяет сократить число вредных ответов на 50% без потери базовых способностей. По мнению авторов, это важный шаг к управлению «характером» ИИ.

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media









103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России



Топ 10 новостей последнего часа



Rss.plus


Новости России







Rss.plus
Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России