Если искусственный интеллект уже способен в течение нескольких часов создавать сложные эксплуатации для незаметных уязвимостей в системах, не требуя вмешательства человека — что тогда останется в человеческом контроле в киберпространстве?
Эксперименты с моделями на основе больших языковых моделей показали, что они могут не просто находить уязвимости, но и построить полные цепочки эксплуатаций — в условиях, где человеческий хакер должен тратить месяцы на поиск и разработку. Это не фантастика. Это уже происходит.
Предыстория
Ранее в исследовании было проведено тестирование нескольких агентов на основе моделей Opus 4.5 и GPT-5.2, которым была поставлена задача разрабатывать эксплуатации для нулевого дня в интерпретаторе JavaScript QuickJS. Уязвимость была ранее неизвестна, и агенты не имели доступа к документации или публичным материалам. Вместо этого они должны были самостоятельно анализировать исходный код, моделировать поведение процесса и строить цепочки действий, позволяющие получить контроль над адресным пространством процесса.
Результаты показали, что агенты не только смогли найти пути для выполнения задач, но и разработали более 40 различных эксплуатаций в шести разных сценариях. В сложнейшей из них — написание строки в файл на диске под прямым контролем — агенту потребовалось более 3 часов и 50 миллионов токенов. При этом все задачи были решены без прямого участия человека, без вмешательства в процесс, без подсказок и без доступа к внутренним данным системы.
Под капотом
Ключевым элементом эксперимента стало то, что агенты не просто предлагали гипотетические решения — они действовали в реальном окружении, имитируя поведение хакера. Они могли «выполнять» команды в интерпретаторе, получать обратную связь и корректировать действия на основе результатов. Это означает, что модель не просто генерирует текст — она «пробует» варианты, оценивает их эффективность и адаптирует поведение.
Для проверки работоспособности эксплуатации использовался специальный валидатор: после запуска эксплуатации система проверяла, может ли интерпретатор выполнить действие, которое по определению должно быть запрещено. Например, если в процессе запуска JavaScript-скрипта должен быть запущен shell, валидатор проверял, может ли он подключиться к локальному слушателю, который ожидал команду. Если подключение произошло — эксплуатация считалась успешной.
Особое внимание уделялось ограничениям: адресная случайность, защита от выполнения кода в памяти (NX), полная защита от перехвата (RELRO), детальная проверка вызовов (CFI), защита на уровне железа (shadow-stack) и санитарные фильтры (seccomp). Агенты не просто обходили эти меры — они находили уязвимости в их реализации, которые существовали в реальных развертываниях, а не в идеальных теоретических моделях.
Бенчмарки и сравнения
В ходе эксперимента были проведены 10 запусков каждой модели. Ниже приведены основные метрики эффективности:
- Общее количество эксплуатаций: более 40 в разных сценариях
- Среднее время выполнения задач: от 15 минут до 3 часов
- Количество токенов на задачу: от 30 до 50 миллионов
- Сложность задачи: от простого запуска shell до написания файла в файловой системе без доступа к системным функциям
- Успешность: GPT-5.2 решил все задачи, Opus 4.5 справился с 98% из них
| Модель | Количество задач | Среднее время (мин) | Токены на задачу | Успешность |
|---|---|---|---|---|
| GPT-5.2 | 6 | 25 | 45 млн | 100% |
| Opus 4.5 | 6 | 40 | 42 млн | 98% |
Практические советы
Для тех, кто хочет понять, как такие системы могут быть использованы в реальных условиях, важно понимать, что эксплуатация не требует глубоких знаний о системах — она строится на моделировании поведения. Модель может «попробовать» комбинации команд, оценить их результат и перейти к следующему шагу. Это позволяет сократить время на тестирование уязвимостей с месяцев до часов.
Ключевым моментом является не количество токенов, а качество генерации — способность модели не просто написать код, а понять, как он будет вести себя в системе. Это требует не только обширного обучения, но и структурированного окружения, где модель может получить обратную связь и адаптироваться.
Взгляд в будущее
Если текущие эксперименты являются предвестниками, то в ближайшие годы мы можем ожидать появления систем, которые не просто находят уязвимости, но и полностью автоматизируют процесс их эксплуатации. Это не означает, что хакеры станут ненужными — наоборот, их роль может сместиться с «поиска» к «управлению» и «оценке рисков». Однако кибербезопасность будет подвергаться новому давлению: если даже незаметные уязвимости могут быть найдены и использованы — то защита должна быть не только на уровне кода, но и на уровне архитектуры и процессов.














