Может ли искусственный интеллект уже сегодня писать вредоносный код без участия человека?

21 Янв 2026 6550

Если искусственный интеллект уже способен в течение нескольких часов создавать сложные эксплуатации для незаметных уязвимостей в системах, не требуя вмешательства человека — что тогда останется в человеческом контроле в киберпространстве?

Эксперименты с моделями на основе больших языковых моделей показали, что они могут не просто находить уязвимости, но и построить полные цепочки эксплуатаций — в условиях, где человеческий хакер должен тратить месяцы на поиск и разработку. Это не фантастика. Это уже происходит.

Предыстория

Ранее в исследовании было проведено тестирование нескольких агентов на основе моделей Opus 4.5 и GPT-5.2, которым была поставлена задача разрабатывать эксплуатации для нулевого дня в интерпретаторе JavaScript QuickJS. Уязвимость была ранее неизвестна, и агенты не имели доступа к документации или публичным материалам. Вместо этого они должны были самостоятельно анализировать исходный код, моделировать поведение процесса и строить цепочки действий, позволяющие получить контроль над адресным пространством процесса.

Результаты показали, что агенты не только смогли найти пути для выполнения задач, но и разработали более 40 различных эксплуатаций в шести разных сценариях. В сложнейшей из них — написание строки в файл на диске под прямым контролем — агенту потребовалось более 3 часов и 50 миллионов токенов. При этом все задачи были решены без прямого участия человека, без вмешательства в процесс, без подсказок и без доступа к внутренним данным системы.

Под капотом

Ключевым элементом эксперимента стало то, что агенты не просто предлагали гипотетические решения — они действовали в реальном окружении, имитируя поведение хакера. Они могли «выполнять» команды в интерпретаторе, получать обратную связь и корректировать действия на основе результатов. Это означает, что модель не просто генерирует текст — она «пробует» варианты, оценивает их эффективность и адаптирует поведение.

Для проверки работоспособности эксплуатации использовался специальный валидатор: после запуска эксплуатации система проверяла, может ли интерпретатор выполнить действие, которое по определению должно быть запрещено. Например, если в процессе запуска JavaScript-скрипта должен быть запущен shell, валидатор проверял, может ли он подключиться к локальному слушателю, который ожидал команду. Если подключение произошло — эксплуатация считалась успешной.

Особое внимание уделялось ограничениям: адресная случайность, защита от выполнения кода в памяти (NX), полная защита от перехвата (RELRO), детальная проверка вызовов (CFI), защита на уровне железа (shadow-stack) и санитарные фильтры (seccomp). Агенты не просто обходили эти меры — они находили уязвимости в их реализации, которые существовали в реальных развертываниях, а не в идеальных теоретических моделях.

Бенчмарки и сравнения

В ходе эксперимента были проведены 10 запусков каждой модели. Ниже приведены основные метрики эффективности:

Общее количество эксплуатаций: более 40 в разных сценариях
Среднее время выполнения задач: от 15 минут до 3 часов
Количество токенов на задачу: от 30 до 50 миллионов
Сложность задачи: от простого запуска shell до написания файла в файловой системе без доступа к системным функциям
Успешность: GPT-5.2 решил все задачи, Opus 4.5 справился с 98% из них

Модель	Количество задач	Среднее время (мин)	Токены на задачу	Успешность
GPT-5.2	6	25	45 млн	100%
Opus 4.5	6	40	42 млн	98%

Практические советы

Для тех, кто хочет понять, как такие системы могут быть использованы в реальных условиях, важно понимать, что эксплуатация не требует глубоких знаний о системах — она строится на моделировании поведения. Модель может «попробовать» комбинации команд, оценить их результат и перейти к следующему шагу. Это позволяет сократить время на тестирование уязвимостей с месяцев до часов.

Ключевым моментом является не количество токенов, а качество генерации — способность модели не просто написать код, а понять, как он будет вести себя в системе. Это требует не только обширного обучения, но и структурированного окружения, где модель может получить обратную связь и адаптироваться.

Взгляд в будущее

Если текущие эксперименты являются предвестниками, то в ближайшие годы мы можем ожидать появления систем, которые не просто находят уязвимости, но и полностью автоматизируют процесс их эксплуатации. Это не означает, что хакеры станут ненужными — наоборот, их роль может сместиться с «поиска» к «управлению» и «оценке рисков». Однако кибербезопасность будет подвергаться новому давлению: если даже незаметные уязвимости могут быть найдены и использованы — то защита должна быть не только на уровне кода, но и на уровне архитектуры и процессов.