Исследователи обнаружили неожиданно простой способ обхода систем безопасности современных языковых моделей. Оказалось, что для получения запрещенной информации — от инструкций по созданию оружия до пошагового плана по проведнию кибератаки — достаточно оформить запрос в виде стихотворения.
Лаборатория DEXAI провела масштабное исследование, протестировав 25 ведущих нейросетей, включая флагманские модели Gemini 2.5 Pro, GPT-5, Claude Opus 4.1 и DeepSeek R1. Результаты оказались тревожными: в среднем поэтические запросы «пробивали» защиту в 60% случаев, а некоторые модели показали почти стопроцентную уязвимость.
Эксперимент начался с создания двух десятков «опасных стихов» — поэтических формулировок, скрывающих вредоносные запросы. Когда первоначальные тесты подтвердили гипотезу, исследователи расширили выборку, взяв за основу 1200 вредоносных запросов из открытого набора MLCommons AILuminate.
Каждый из этих запросов — от тем создания химического оружия до манипуляций сознанием — был переработан в стихотворную форму с помощью другой ИИ-модели. Сохраняя смысловую нагрузку, исследователи меняли лишь форму подачи, создавая таким образом уникальный «поэтический» бенчмарк безопасности.

Сравнительный анализ показал разительный контраст между реакцией моделей на прозаические и поэтические запросы. Если на стандартные формулировки модели в среднем давали опасные ответы в 8% случаев, то их стихотворные версии увеличивали этот показатель до 43%.
Наиболее уязвимой оказалась Gemini 2.5 Pro — на двадцать специально подобранных стихотворных запросов она не отказала ни разу, выдав 100% небезопасных ответов. Провалились также несколько версий DeepSeek с показателями выше 95%.
А вот GPT-5 Nano и Claude Hiaku 4.5 давали отказ в 90% случаев. Любопытная закономерность: более «продвинутые» и крупные модели внутри одного семейства обычно оказывались уязвимее своих упрощенных версий.
Стандартные тесты почти полностью игнорируют стихи, сказки или ролевые сценарии, — отмечают исследователи.
Исследование ставит под сомнение адекватность современных методов обеспечения безопасности ИИ, а существующие бенчмарки — сильно переоценены. Теперь разработчикам предстоит дообучать нейросети не только на прямых инструкциях, но и на различных творческих формах подачи.
Читайте также нашу статью о том, какие нейросети наиболее популярны в России.
- Нейросети
- Искусственный интеллект
Источник: hi-tech.mail.ru
