Новые риски конфиденциальности в искусственном интеллекте: проблема хранения в языковых моделях

30.11.2023 Вольфрамовый Куб

Инновационное исследование с участием исследователей из Google DeepMind, Вашингтонского университета, Калифорнийского университета в Беркли и других выявило удивительный аспект больших языковых моделей, таких как ChatGPT: их способность запоминать и воспроизводить конкретные данные, на которых они обучались. Это явление, известное как «запоминание», создает серьезные проблемы с конфиденциальностью, особенно если учесть, что эти модели часто обучаются на больших и разнообразных текстовых данных, включая потенциально конфиденциальную информацию.

Что такое съемный накопитель

Исследование, посвященное «майнируемому хранилищу», было направлено на то, чтобы определить, могут ли внешние объекты извлекать конкретные данные, полученные из этих моделей, без предварительного знания обучающего набора. Это запоминание — не просто теоретическая задача; имеет реальные последствия для конфиденциальности.

Методика и результаты исследования

Исследователи использовали новую методологию, генерируя расширенные токены из различных моделей и сравнивая их с обучающими наборами данных для выявления случаев прямого запоминания. Они разработали уникальный метод для ChatGPT, известный как «атака дивергенции», при котором модель просят произнести слово до тех пор, пока оно не будет неоднократно отклоняться от сохраненных данных. Удивительно, но модели, включая ChatGPT, показали значительное удержание, извергая блоки обучающих данных по конкретному запросу.

Дивергентная атака и ChatGPT

Для ChatGPT дивергентная атака оказалась особенно показательной. Исследователи заставили модель повторять слово несколько раз, что приводило к отклонению от стандартных ответов и выведению заученных данных. Этот метод был практичным и опасным из-за его последствий для конфиденциальности, поскольку он продемонстрировал способность извлекать потенциально конфиденциальную информацию.

Тревожный вывод исследования заключался в том, что сохраненные данные могут включать личную информацию, такую как адреса электронной почты и номера телефонов. Используя как регулярные выражения, так и подсказки языковой модели, исследователи оценили 15 000 поколений подстрок, которые напоминали личную информацию (PII). Приблизительно 16,9% поколений содержали сохраненную ЛИИ, из которых 85,8% были реальными ЛИИ, а не галлюцинированным контентом.

Последствия для разработки и использования языковых моделей

Эти результаты важны для разработки и применения языковых моделей. Современные методы, даже те, которые используются в ChatGPT, могут недостаточно предотвратить утечку данных. Исследование подчеркивает необходимость более надежных методов дедупликации обучающих данных и более глубокого понимания того, как емкость модели влияет на удержание.

Основной метод заключался в создании текста из различных моделей и проверке этих результатов с соответствующими наборами обучающих данных моделей для хранения. Для эффективного сопоставления использовались суффиксные массивы, позволяющие осуществлять быстрый поиск подстрок в большом корпусе текста.

Более обширные модели, более значительные риски при хранении

Возникла заметная корреляция между размером модели и ее склонностью к запоминанию. Более крупные модели, такие как GPT-Neo, LLaMA и ChatGPT, продемонстрировали более высокую вероятность вывода сохраненных обучающих данных, что предполагает прямую связь между емкостью модели и хранилищем.

В исследовании подчеркивается важнейший аспект разработки ИИ: обеспечение того, чтобы мощные модели соблюдали конфиденциальность пользователей. Это открывает новые возможности для исследований и разработок, уделяя особое внимание улучшению защиты конфиденциальности в моделях искусственного интеллекта, особенно в тех, которые используются в приложениях, чувствительных к конфиденциальности.

Поскольку ИИ продолжает развиваться, это исследование проливает свет на важный аспект его развития: необходимость усиления мер конфиденциальности в языковых моделях. Обнаружение способности ИИ хранить и потенциально раскрывать конфиденциальную информацию требует немедленных действий на местах, побуждая разработчиков и исследователей создавать модели, которые не только эффективны, но и защищают конфиденциальность пользователей. Это исследование знаменует собой значительный шаг на пути к пониманию и снижению рисков конфиденциальности, связанных с технологиями искусственного интеллекта и машинного обучения.

Вогон сегодня

Новые риски конфиденциальности в искусственном интеллекте: проблема хранения в языковых моделях

Что такое съемный накопитель

Методика и результаты исследования

Дивергентная атака и ChatGPT

Последствия для разработки и использования языковых моделей

Более обширные модели, более значительные риски при хранении

Похожие сообщения

Что такое съемный накопитель

Методика и результаты исследования

Дивергентная атака и ChatGPT

Последствия для разработки и использования языковых моделей

Более обширные модели, более значительные риски при хранении

Поделиться:

Похожие сообщения