Исследование показывает, что ChatGPT борется с базовой математикой

07.08.2023 Вольфрамовый Куб

В быстро меняющемся мире технологий чат-боты с искусственным интеллектом (ИИ) стали значительным прорывом. Среди них ChatGPT от OpenAI был удивительной и увлекательной аудиторией с момента его представления публике в прошлом году. Ее способность вести плавные беседы принесла ей похвалу и спровоцировала ожесточенную глобальную гонку за разработкой еще более продвинутых моделей искусственного интеллекта. Однако на фоне аплодисментов и опасений по поводу потенциального доминирования ИИ недавние открытия выявили неожиданное событие: более низкий уровень владения ChatGPT базовой математикой.

Понимание феномена «дрейфа» ИИ

Термин «дрейф» в ИИ — это не просто модное слово. Это реальное и наблюдаемое явление, которое привлекло внимание академического сообщества. Совместные исследования Стэнфордского университета и Калифорнийского университета в Беркли пролили некоторый свет на этот интригующий аспект поведения ИИ.

Суть «дрейфа» заключается в непреднамеренных последствиях оптимизации модели. Поскольку исследователи и разработчики стремятся улучшить некоторые функции этих сложных моделей ИИ, другие области могут непреднамеренно пострадать. Именно это и происходит с ChatGPT.

Джеймс Зоу, известный профессор Стэнфордского университета и ключевой участник исследования, пояснил: «Когда вы модифицируете модель, чтобы улучшить ее в одном конкретном направлении, существует ощутимый риск того, что она откатится назад в других областях». Эта неотъемлемая проблема подчеркивает сложность достижения последовательного прогресса в моделях ИИ.

Копание в упадке

Исследование не было беглым взглядом на возможности ChatGPT. Это был тщательный анализ под руководством Линцзяо Чена, прилежного доктора компьютерных наук. Студент Стэнфорда и номинальный глава Беркли Матей Захария. Их цель была ясна: оценить, как две разные версии ChatGPT работали в течение определенного периода времени.

Их открытия были поразительны. Можно предположить, что идентификация простых чисел, относительно простая задача для компьютеров, будет детской забавой для столь продвинутого искусственного интеллекта. Однако результаты говорили о другом.

В ходе тестирования, проведенного в марте, GPT-4, премиум-версия ChatGPT, была представлена 1000 различных номеров. Ему удалось правильно установить простоту 84% из них. Перенесемся в июнь, и его точность упала до 51%. Это был не единичный случай. Из восьми разных задач производительность GPT-4 ухудшилась в шести. Хотя GPT-3.5 улучшился в шести областях, он в значительной степени отставал от своего преемника.

Последствия быстрого дрейфа

Хотя «дрейф» является общепризнанной концепцией среди энтузиастов ИИ, скорость, с которой она проявилась в ChatGPT, была неожиданной. Наблюдения исследовательской группы не ограничивались домашним заданием по математике. Они отметили заметное снижение реакции GPT-4 на вопросы, ориентированные на мнение. С похвальных 98% ответов в марте к июню он упал до 23%.

Этот регресс может быть переплетен с растущей тенденцией «готового дизайна». Это предполагает, что пользователи создают специальные подсказки для извлечения конкретных и иногда противоречивых ответов ИИ. Ухудшение математических способностей ChatGPT может быть непреднамеренным следствием мер, принятых для противодействия таким манипулятивным предложениям.

Навигация по будущему ИИ

Несмотря на препятствия, консенсус, особенно среди исследовательского сообщества, заключается в том, чтобы не сбрасывать со счетов технологию. Вместо этого упор делается на бдительность. Цзоу страстно выступает за более строгий подход к мониторингу. Вторя его чувствам, совместная команда из Стэнфорда и Беркли готовится подвергнуть модели ИИ, включая ChatGPT, серии тестов. Их цель? Эмпирически измерить их эволюцию с течением времени.

Путь развития ИИ нелинейный. Это динамичное путешествие, отмеченное прорывами, случайными спотыканиями и неожиданными обходными путями. Пока мировое сообщество продолжает исследовать запутанный лабиринт ИИ, ясно одно: путь к пониманию и совершенствованию этих систем далек от завершения.

Вогон сегодня

Исследование показывает, что ChatGPT борется с базовой математикой

Понимание феномена «дрейфа» ИИ

Копание в упадке

Последствия быстрого дрейфа

Навигация по будущему ИИ

Похожие сообщения

Понимание феномена «дрейфа» ИИ

Копание в упадке

Последствия быстрого дрейфа

Навигация по будущему ИИ

Поделиться:

Похожие сообщения