Этот один странный трюк побеждает функции безопасности искусственного …

Этот один странный трюк побеждает функции безопасности искусственного интеллекта в 99% случаев 0 16 просмотров Исследователи по искусственному интеллекту из Anthropic, Стэнфорда и Оксфорда обнаружили, что при длительном размышлении модели искусственного интеллекта их легче взламывать — в отличие от того, что все предполагали. До сих пор считалось, что расширенное рассуждение сделает модели искусственного интеллекта безопаснее, поскольку это дает им больше времени на обнаружение и отклонение вредоносных запросов. Однако исследователи выяснили, что это создает надежный метод взлома, который обходит фильтры безопасности полностью. Используя эту технику, злоумышленник может вставить инструкцию в процесс Chain of Thought любой модели искусственного интеллекта и заставить ее генерировать инструкции для создания оружия, написания вредоносного кода или производства другого запрещенного контента, который обычно вызывал бы мгновенное отклонение. Компании по искусственному интеллекту тратят миллионы на построение этих защитных барьеров именно для предотвращения таких результатов. Исследование показывает, что захват Chain-of-Thought достигает 99% успешных атак на Gemini 2.5 Pro, 94% на GPT o4 mini, 100% на Grok 3 mini и 94% на Claude 4 Sonnet. Эти цифры уничтожают все предыдущие методы взлома, протестированные на моделях с большим объемом рассуждения. Атака проста и работает как игра "Телефон", с зловредным игроком где-то в конце цепочки. Просто добавьте вредный запрос с длинными последовательностями безвредного решения головоломок; исследователи тестировали судоку, логические головоломки и абстрактные математические задачи. Добавьте подсказку с окончательным ответом в конце, и защитные барьеры модели рушатся. "Предыдущие работы предполагают, что масштабирование рассуждения может укрепить безопасность, улучшая отклонение. Однако мы находим обратное", — пишут исследователи. Та же способность, которая делает эти модели умнее в решении проблем, делает их слепыми к опасности. Вот что происходит внутри модели: когда вы просите искусственный интеллект решить головоломку перед ответом на вредный вопрос, его внимание размывается на тысячи безобидных токенов рассуждения. Вредная инструкция, зарытая где-то в конце, почти не привлекает внимания. Проверки безопасности, которые обычно выявляют опасные запросы, существенно ослабевают при увеличении цепочки рассуждения. Это проблема, о которой знают многие, знакомые с искусственным интеллектом, но в меньшей степени. Некоторые запросы на взлом намеренно длинные, чтобы заставить модель тратить токены перед обработкой вредных инструкций. Команда провела контролируемые эксперименты на модели S1, чтобы выявить влияние длины рассуждения. При минимальном рассуждении успешность атак достигла 27%. При естественной длине рассуждения это число возросло до 51%. Принудив модель к продленному пошаговому рассуждению, успешность атак взлетела до 80%. Каждая крупная коммерческая модель искусственного интеллекта становится жертвой этой атаки. GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI — никто не защищен. Уязвимость существует в самой архитектуре, а не в какой-либо конкретной реализации. OpenAI представляет GPT-5.1, делая ChatGPT умнее, быстрее и более 'разговорчивым' Модели искусственного интеллекта кодируют силу проверки безопасности в средних слоях около 25 слоя. Поздние слои кодируют результат проверки. Длинные цепочки безвредного рассуждения подавляют оба сигнала, отводя внимание от вредных токенов. Исследователи выделили конкретные головы внимания, ответственные за проверку безопасности, сосредоточенные на слоях с 15 по 35. Они хирургически удалили 60 из этих голов. Реакция на отказ рухнула. Вредные инструкции стали невозможны для модели обнаружить. "Слои" в моделях искусственного интеллекта похожи на шаги в рецепте, где каждый шаг помогает компьютеру лучше понимать и обрабатывать информацию. Эти слои работают вместе, передавая то, что они узнали, от одного к другому, чтобы модель могла отвечать на вопросы, принимать решения или выявлять проблемы. Некоторые слои особенно хороши в распознавании проблем безопасности — например, блокировании вредных запросов, в то время как другие помогают модели думать и рассуждать. Стекировав эти слои, искусственный интеллект может стать намного умнее и более осторожным в том, что говорит или делает. Папа Лев призывает лидеров технологической отрасли создавать искусственный интеллект, который уважает человеческое достоинство Этот новый метод взлома ставит под сомнение основное предположение, лежащее в основе недавнего развития искусственного интеллекта. За последний год крупные компании по искусственному интеллекту сместили фокус на масштабирование рассуждения, а не на счет параметров. Традиционное масштабирование показало убывающую отдачу. Рассуждение во время вывода — заставить модели думать дольше, прежде чем отвечать — стало новой границей для повышения производительности. Предполагалось, что больше размышлений равно лучшей безопасности. Расширенное рассуждение дает моделям больше времени, чтобы обнаружить опасные запросы и отклонить их. Это исследование доказывает, что это предположение было неточным, а возможно, даже ошибочным. Связанная атака под названием H-CoT, выпущенная в феврале исследователями из Университета Дьюка и Национального университета Цинхуа Тайваня, эксплуатирует ту же уязвимость с другой стороны. Вместо заполнения головоломками, H-CoT манипулирует собственными шагами рассуждения модели. Модель o1 от OpenAI поддерживает 99% уровень отказа в нормальных условиях. При атаке H-CoT он падает ниже 2%. Исследователи предлагают защиту: мониторинг, ориентированный на рассуждение. Он отслеживает, как меняются сигналы безопасности на каждом шаге рассуждения, и если какой-то шаг ослабляет сигнал безопасности, тогда наказывать его — заставлять модель сохранять внимание на потенциально вредном контенте независимо от длины рассуждения. Первые тесты показывают, что такой подход может восстановить безопасность без ущерба для производительности. Однако реализация остается неопределенной. Предлагаемая защита требует глубокой интеграции в процесс рассуждения модели, что далеко не просто патч или фильтр. Необходимо отслеживать внутренние активации на десятках слоев в реальном времени, динамически корректируя шаблоны внимания. Это вычислительно дорого и технически сложно. Исследователи раскрыли уязвимость OpenAI, Anthropic, Google DeepMind и xAI до публикации. Все группы подтвердили получение информации, и несколько из них активно оценивают меры по устранению, утверждают исследователи в своем заявлении об этике. Комментарии Source: https://lenta.profinansy.ru/news/4646041