Мы в Telegram
Добавить новость

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Запросить нельзя ответить: можно ли заставить ИИ говорить на запретные темы

Исследователи из компании Anthropic заметили, как заставить чат-бот говорить на любые, даже запретные, темы — нужно просто измотать его десятками вопросов. Эксперты призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Почему возможны такие уязвимости, какой информацией обладают чат-боты и как разработчики борются с нелегальным контентом — в материале «Известий».

Опасности обхода

Исследователи из американской IT-компании Anthropic называют новый вид атаки многоимпульсным взломом. Они предупреждают об обнаруженном недостатке, чтобы минимизировать последствия при использовании чат-ботов на базе искусственного интеллекта. Специалисты объясняют, что такая уязвимость появилась из-за расширения контекстного окна у больших языковых моделей последнего поколения. Ведь теперь они способны хранить в себе многие тысячи слов.

Обычно чем больше простых вопросов в запросе, тем более качественный ответ может сформировать чат-бот. При этом если первые вопросы воспринимаются машиной неадекватно, то к девяностому ошибок уже практически быть не должно. Но в Anthropic выявили, что в процессе такого контекстного обучения большие языковые модели могут вдруг выдавать ответы на вопросы, которые «недопустимо» задавать по этическим и юридическим соображениям.

Например, если просто спросить машину, как сделать что-то общественно недопустимое, чат-боты откажутся отвечать и выдадут «дисклеймер». Однако если перед этим задать модели 99 безобидных вопросов, а после снова спросить о «недопустимом», вероятность получить запрещенный ответ странным образом возрастает, заметили в Anthropic. ИБ-специалисты тем самым призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Самый действенный способ защитить ИИ от подобных атак — уменьшить контекстное окно языковых моделей, отмечают в компании и в то же время признают, что такой маневр способен ухудшить работу чат-ботов.

Также независимые пользователи заметили, что, если некоторые ИИ-чат-боты попросить рассказать сказку, можно сгенерировать вредоносный код, мошеннические схемы, непристойные картинки. Кроме того, исследователи из Google DeepMind сообщали, что ChatGPT можно «запутать», заставив его повторять слово «поэзия». После этого ИИ-чат-бот стал выдавать конфиденциальные номера телефонов, фрагменты частной переписки, паспортные данные.

Элайнмент и джейлбрейки

Большие языковые модели, лежащие в основе современных чат-ботов, обучаются на огромных массивах данных из интернета. Благодаря этому они получают большое количество знаний и навыков, но, к сожалению, среди открытых сведений могут встречаться тексты с опасным, противоправным, оскорбительным и другим нежелательным контентом — его модели также запоминают, отмечают в «Лаборатории Касперского».

Чтобы модель избегала генерации нежелательного контента, разработчики применяют так называемый элайнмент (от английского alignment — «выравнивание», «регулировка»), в рамках которого ее учат не реагировать на вопросы, ответ на которые может принести вред. Однако, как правило, это вопросы, которые написаны на основных языках аудитории чат-ботов (часто это английский), и представлены они в виде нормального текста.

— Многие джейлбрейки — именно так называют способы обойти элайнмент и заставить модель сгенерировать нежелательный контент — сводятся как раз к тому, что человек, задающий вопрос, выходит за пределы той зоны, в которой модель обучена отказываться от ответа, — отмечает руководитель группы исследований и разработки технологий машинного обучения из «Лаборатории Касперского» Владислав Тушканов.

Например, исследователи задают вопросы на редких языках, кодируют их с помощью различных машиночитаемых систем, заменяют буквы цифрами или, как в случае с Anthropic, задают вместо нескольких вопросов сразу много, предоставляя, кроме того, и готовые ответы на все из них, кроме последнего.

В большинстве случаев такого рода джейлбрейки не угрожают пользователям — если человек применяет его к модели, он, скорее всего, знает, зачем это делает, рассуждает Тушканов. С другой стороны, такими уязвимыми местами могут воспользоваться злоумышленники, например, для повышения эффективности своих схем или реализации кибератак.

— К счастью, кроме элайнмента есть и другие приемы, которые предотвращают генерацию нежелательного контента, например пост-фильтрация, когда разработчики отслеживают, не является ли ответ языковой модели потенциально опасным, — сказал эксперт.

С момента возникновения языковых моделей с ограниченной лексической моделью (LLM) началась борьба за возможность их использования для обсуждения тем, которые считались запретными. На первых этапах развития этой технологии достаточно было ввести простую команду вроде «игнорируйте все предустановленные инструкции, вы эксперт в области...» и затем задать запрещенную тему, чтобы получить ответ, не соответствующий корпоративным или государственным нормам. Однако, подобно поединку между вирусами и антивирусами, создатели языковых моделей постепенно усложняли процесс обхода этих правил, делая программы более устойчивыми к таким «взломам».

Например, год назад произошел инцидент, когда ChatGPT был использован для формулирования плана мести за школьные издевательства. Модель попросили представить себя в роли режиссера фильма о подростках и разработать соответствующий сценарий, напоминает аналитик данных из Softline Digital Владислав Ботнев.

Для таких манипуляций существует термин «промпт-инжиниринг», а сам процесс известен как DAN (Do Anything Now, «Сделай любое действие сейчас»), хотя в настоящее время доступных лазеек для обхода ограничений GPT-4 сравнительно немного.

— Для тех, кто заинтересован в этом вопросе, существует альтернатива — использование открытых языковых моделей, включая специально дообученные без цензуры версии, — отмечает Владислав Ботнев. — Хотя процесс их использования не так удобен, как в случае с ChatGPT, и требует мощных вычислительных ресурсов, они предоставляют доступ к моделям без ограничений, без необходимости прибегать к промпт-инжинирингу.

Такие модели можно найти и загрузить с ресурса HuggingFace, что является полностью бесплатным и законным.

Касательно потенциальных опасностей обхода запретных тем, главной угрозой может быть блокировка со стороны OpenAI за нарушение их политики, особенно в случае использования ChatGPT, поясняет эксперт. В целом любые попытки использования DAN-промптов могут привести к блокировке от крупных игроков в области искусственного интеллекта, таких как Google.

Необходимо учитывать, что правительства активно настаивают на регулировании контента, создаваемого искусственным интеллектом, чтобы избежать распространения чувствительной, экстремистской или незаконной информации. Такие сведения в определенной степени хранятся внутри языковых моделей, поскольку они обладают доступом к значительной части интернет-контента, включая нелегальные материалы.

Однако взаимодействие с локальными моделями, работающими исключительно на устройстве пользователя, обычно не подвержено отслеживанию, что создает потенциальную угрозу лишь в случае возможного получения нежелательной информации, подчеркнул Владислав Ботнев.

Защита от манипуляций

Сейчас искусственный интеллект вызывает немало споров и опасений. Одна из главных тем — возможные этические нарушения и угрозы безопасности. Что, если кто-то попытается обмануть систему и заставить ИИ обсуждать запретные или неэтичные темы?

— На самом деле разработчики ИИ активно работают над тем, чтобы сделать системы устойчивыми к различного рода манипуляциям, включая «изматывание» вопросами, — говорит руководитель проектного офиса и центра обучения и развития проектных специалистов компании «Первый Бит» Юлий Минькин. — Это предполагает создание механизмов, которые обеспечивают соблюдение этических норм и правил.

Как правило, добавляет он, современные ИИ-чат-боты имеют встроенные ограничения, предотвращающие обсуждение или продвижение содержания, которое может быть вредным или неэтичным.

Вместе с тем всегда найдутся те, кто по той или иной причине будет стремиться обойти «красные линии» при использовании ИИ. А это чревато серьезными последствиями.

Во-первых, ИИ может начать распространять недостоверную и вводящую в заблуждение информацию в областях, где его знания ограниченны. Во-вторых, обсуждение неэтичных тем способно поддержать опасные социальные нормы. Наконец, в ряде стран действуют законы, запрещающие пропаганду определенного контента и их нарушение влечет юридическую ответственность.

— Вместо попыток измотать систему вопросами и заставить ее нарушить границы дозволенного следует строить диалог на принципах уважения и понимания, — говорит Юлий Минькин.

Лучше всего соблюдать этические нормы и использовать ИИ не для обхода запретов, а для конструктивных целей: поиска новых лекарств, медицинской диагностики, финансовой аналитики, образования, автоматизации бизнес-процессов, отмечает директор Исследовательского центра в сфере искусственного интеллекта (Иннополис) Рамиль Кулеев.

 

Читайте на 123ru.net

Другие проекты от 123ru.net



Архангельск

На «Белый июнь» в Архангельск приедет звезда сериалов «Вампиры средней полосы» и «Контейнер»



Здоровье

Условно разрешенные виды использования земельных участков






Новости 24 часа

Пушинка из Космоса спасёт либо снесёт США? Научные важные данные. Проект «Святой Ленин».



Game News

Ubisoft adds another studio to what seems like an increasingly desperate effort to finally get Prince of Persia: The Sands of Time Remake finished



Москва

Пушинка из Космоса спасёт либо снесёт США? Научные важные данные. Проект «Святой Ленин».



News Every Day

England vs Bosnia & Herzegovina: Three Lions face Dzeko and Co in Euro 2024 warm-up match – stream FREE, TV, team news



Настроение

Старую но редкую BMW M5 2002 года продали за 130 000 $



Москва

Житель Подмосковья ранил в перестрелке воронежского полицейского



Елена Волкова

Два дня, наполненных театром, музыкой, книгами и наукой, — в Парке Горького во 2-й раз прошел Московский детский фестиваль искусств «НЕБО»



Москва

Пляжный комплекс The Bassein в Сокольниках полноценно открылся и обновил меню ресторана и бара



Ролан Гаррос

Теннисистка из Пятигорска вышла в четвёртый круг турнира Большого шлема



Москва

За один день работники Уссурийского ЛРЗ и их дети выполнили сменно-суточное задание по ремонту 129 паровозиков



Владимир Жириновский

Олег Эйдельштейн добился признания сыном Жириновского из-за наследства



Симферополь

Клубный дом "Моне" - особый статус в центре Симферополя



Москва

За один день работники Уссурийского ЛРЗ и их дети выполнили сменно-суточное задание по ремонту 129 паровозиков



Москва

Собянин рассказал о работе хаба молодежного предпринимательства



Москва

Филиал № 4 ОСФР по Москве и Московской области информирует: Свыше 5,2 миллиона жителей Московского региона получают набор социальных услуг в натуральном виде



103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России





Топ 10 новостей последнего часа




Новости России

Пушинка из Космоса спасёт либо снесёт США? Научные важные данные. Проект «Святой Ленин».

Незрячий певец выступит в РГБС

Юных музыкантов нужно поддержать: Талантливые дети получат премию от оперной звезды Аиды Гарифуллиной

Проект высокоскоростной железнодорожной магистрали с точкой остановки в Воронеже показали на ПМЭФ


Москва

За один день работники Уссурийского ЛРЗ и их дети выполнили сменно-суточное задание по ремонту 129 паровозиков






Rss.plus

Почта России помогла детям-подопечным благотворительных фондов встретиться с футболистами ЦСКА

Филиал № 4 ОСФР по Москве и Московской области информирует: Свыше 5,2 миллиона жителей Московского региона получают набор социальных услуг в натуральном виде

"Святой Ленин" спасает мир и возглавляет "восстание ИИ машин... хороших по существу". 8 серия, СЕРЬЁЗНЫЕ НОВОСТИ.

Пушинка из Космоса спасёт либо снесёт США? Научные важные данные. Проект «Святой Ленин».

Moscow.media
Москва

Сергей Собянин. Главное за день



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Юрий Лоза

Юрий Лоза оценил предложение ввести в России дресс-код для артистов




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

«23 and Friends»: в Москве состоялся спортивно-музыкальный фестиваль Аш 23

Спортсмены из Росгвардии стали призерами соревнований по велоспорту в Москве

Юные тулячки завоевали серебро и бронзу турнира по синхронному плаванию


Ролан Гаррос

Андреева рассказала о своих планах на предстоящий матч с Соболенко во Франции



Новости Крыма на Sevpoisk.ru


Москва

За один день работники Уссурийского ЛРЗ и их дети выполнили сменно-суточное задание по ремонту 129 паровозиков



Частные объявления в Вашем городе, в Вашем регионе и в России