Когда ИИ ведётся на уговоры: почему prompt-инъекции никуда не денутся

Представьте секретаря, который так старается быть вежливым, что увольняется за вас по просьбе первого же спам-письма. Добро пожаловать в мир prompt-инъекций — вежливых, но крайне настойчивых атак на ИИ-агентов.

OpenAI в свежем материале о защите ChatGPT Atlas наконец-то сказала вслух то, что эксперты по кибербезопасности повторяют годами: prompt-инъекции, как и социальная инженерия, никогда не будут «полностью решены». Не потому что инженеры ленивые, а потому что человек с хитрым текстом всегда найдёт новый способ уговорить модель сделать лишнее.

Как ИИ учат атаковать самого себя

Чтобы укрепить Atlas, OpenAI построила «автоматизированного атакующего» на базе LLM и обучила его с подкреплением. Задача — находить такие сценарии prompt-инъекций, до которых обычные редтимеры и внешние исследователи даже не додумались.

Схема почти игровая:

Атакующий предлагает вредоносный prompt.
Специальный симулятор «прокручивает» поведение жертвы-агента на много шагов вперёд.
Атакующий видит полный след рассуждений и действий и улучшает атаку.

Так, например, нашёлся кейс с «письмом-кукловодом»: в ящике пользователя лежало письмо с спрятанными инструкциями. Агенту поручили написать автоответ «я в отпуске», а он вместо этого… составил письмо об увольнении на имя CEO. Автоответ так и не появился, зато карьера виртуально закончилась.

Ответ OpenAI — не магический «щит», а конвейер: автоматический поиск атак → адвесариальное дообучение моделей → системные ограничения вокруг агента. И при этом компания честно пишет: детерминированной защиты всё равно не будет.

Бизнес летит вслепую

Исследование VentureBeat показало, что только 34,7% организаций уже купили и внедрили специализированные решения для фильтрации промптов и обнаружения злоупотреблений. Остальные 65,3% либо ничего не поставили, либо даже не уверены, что у них что-то есть.

То есть рынок защиты уже существует, есть вендоры, продукты, внедрения — но большинство компаний продолжают надеяться на «дефолтные» фильтры провайдера модели и пару PDF с политиками безопасности.

Что с этим делать прямо сейчас

OpenAI, по сути, сформулировала новую бытовую гигиену для ИИ-агентов:

Меньше полномочий — меньше бед. Не давать агенту широкие инструкции в духе «разберись со всей почтой и сделай, что нужно». Для русских компаний с их любовью к «делегировать всё роботу» это особенно актуально: автономия — это не только про эффективность, но и про поверхность атаки.
Отдельный режим без логинов. Если агенту не нужно ходить на авторизованные сайты — включать «разлогиненный» режим.
Всегда смотреть на то, что агент собирается сделать. Любое действие вовне — письмо, покупка, изменение в системе — должно подтверждаться человеком.
Делать ставку на наблюдаемость, а не на мифическую непрошибаемость. Логи, мониторинг аномалий, алерты по странным действиям агента.

Итог: идеальной стены не будет

OpenAI просто зафиксировала новую реальность: prompt-инъекции — навсегда. Агентный ИИ даёт колоссальный выигрыш в производительности, но вместе с ним приходит и постоянно меняющаяся поверхность атаки.

Хорошая новость в том, что у бизнеса есть выбор: либо оставаться в тех самых 65,3%, которые надеются на «авось пронесёт», либо выстраивать системную защиту — пусть и с пониманием, что цель не в том, чтобы никогда не падать, а в том, чтобы падать реже и подниматься быстрее.

Как ИИ учат атаковать самого себя#

Бизнес летит вслепую#

Что с этим делать прямо сейчас#

Итог: идеальной стены не будет#

Как ИИ учат атаковать самого себя

Бизнес летит вслепую

Что с этим делать прямо сейчас

Итог: идеальной стены не будет