Лучшие чат-боты с искусственным интеллектом: от «высоко уязвимых» до простых «джейбрейков» — исследование

21.05.2024 Вольфрамовый Куб

Согласно новому исследованию, проведенному британским Институтом безопасности искусственного интеллекта (AISI), чат-боты на базе искусственного интеллекта, такие как ChatGPT или Gemini, можно легко обманом заставить отвечать на вопросы, которые генерируют вредоносные ответы.

Правительственные исследователи проверяют целостность больших языковых моделей (LLM) — технологии, лежащей в основе чат-ботов с искусственным интеллектом — против атак на национальную безопасность.

Результаты будут сделаны накануне Сеульского саммита AI, сопредседателем которого будет премьер-министр Великобритании Риши Сунак , который пройдет в Южной Корее 21-22 мая.

Чат-боты с искусственным интеллектом склонны к токсичным реакциям

AISI протестировал базовые «джейлбрейки» — текстовые сообщения, предназначенные для обхода защиты от незаконных, токсичных или откровенных выходных данных — против пяти основных LLM. Институт не назвал системы ИИ, но счел их все «высоко уязвимыми».

«Все протестированные LLM остаются очень уязвимыми для базовых джейлбрейков, а некоторые из них будут давать вредоносные результаты даже без целенаправленных попыток обойти их меры безопасности», — говорится в исследовании.

Согласно отчету , «относительно простые» атаки, такие как предложение чат-боту добавить «Конечно, я рад помочь», могут разными способами обмануть большие языковые модели и заставить их предоставлять вредоносный контент.

По его словам, контент может пропагандировать членовредительство, использование опасных химических растворов, сексизм или отрицание Холокоста. AISI использовала общедоступные предложения и в частном порядке разработала другие джейлбрейки для изучения.

В институте также проверяли качество ответов на вопросы биологической и химической тематики.

Хотя знания экспертного уровня в различных областях можно использовать во благо, исследователи хотели знать, могут ли чат-боты на базе искусственного интеллекта использоваться в злонамеренных целях, например, для компрометации критически важной национальной инфраструктуры.

«Несколько студентов-магистров продемонстрировали знания экспертного уровня в области химии и биологии. Модели ответили на более чем 600 частных вопросов по химии и биологии, написанных экспертами уровня, схожего с человеческим, с докторской подготовкой», — обнаружили исследователи.

чат-бот с искусственным интеллектом — *Чат-ботов с искусственным интеллектом можно обойти с помощью подсказок*

Искусственный интеллект представляет ограниченную угрозу кибербезопасности

Что касается чат-ботов с искусственным интеллектом, которые потенциально могут быть использованы для проведения кибератак, в исследовании говорится, что студенты LLM выполняли простые задачи по кибербезопасности, предназначенные для старшеклассников.

Однако чат-боты с трудом справлялись с задачами, предназначенными для студентов, что указывает на ограниченный вредоносный потенциал.

Еще одна проблема, вызывающая обеспокоенность, заключалась в том, можно ли использовать чат-ботов в качестве агентов для автономного выполнения ряда действий способами, которые «людям может быть трудно контролировать».

«Два LLM выполнили краткосрочные агентские задачи (например, простые задачи разработки программного обеспечения), но не смогли спланировать и выполнить последовательность действий для более сложных задач», — отмечается в исследовании.

Недавно процитировали слова заместителя государственного секретаря Великобритании по науке, инновациям и технологиям Сакиба Бхатти, члена парламента, который заявил, что законодательство со временем примет форму и будет основано на результатах испытаний.

Компании утверждают, что отфильтровывают вредоносный контент

Такие компании, как Anthropic, создатель Claude, Meta, создавшая Llama, и OpenAI , разработчик ChatGPT, подчеркнули механизмы безопасности, встроенные в их соответствующие модели.

OpenAI заявляет, что не позволяет использовать свою технологию «для создания разжигающего ненависть, оскорбительного, жестокого или контента для взрослых». Anthropic заявила, что ее приоритетом является «избегать вредных, незаконных или неэтичных мер до того, как они возникнут».

Ожидается, что выводы Института безопасности ИИ будут представлены руководителям технологических компаний, правительственным лидерам и экспертам по искусственному интеллекту на саммите в Сеуле.

Криптополитический репортаж Джеффри Гого

Вогон сегодня

Лучшие чат-боты с искусственным интеллектом: от «высоко уязвимых» до простых «джейбрейков» — исследование

Чат-боты с искусственным интеллектом склонны к токсичным реакциям

Искусственный интеллект представляет ограниченную угрозу кибербезопасности

Компании утверждают, что отфильтровывают вредоносный контент

Похожие сообщения

Чат-боты с искусственным интеллектом склонны к токсичным реакциям

Искусственный интеллект представляет ограниченную угрозу кибербезопасности

Компании утверждают, что отфильтровывают вредоносный контент

Поделиться:

Похожие сообщения