5 марта 2026 года OpenAI представила GPT-5.4 — свою самую мощную модель, которая впервые объединяет глубокое рассуждение, продвинутую генерацию кода и нативное управление компьютером. Модель выходит в трёх вариантах: GPT-5.4, GPT-5.4 Thinking и GPT-5.4 Pro — и уже доступна в ChatGPT, API и Codex.
Что нового в GPT-5.4
GPT-5.4 стала первой моделью OpenAI общего назначения с нативной поддержкой управления компьютером. Модель умеет работать с десктопными приложениями через скриншоты, мышь и клавиатуру, а также генерировать код для автоматизации через библиотеки вроде Playwright. Это не экспериментальная функция — computer use встроен как базовая возможность, доступная через API и Codex.
Помимо этого, GPT-5.4 впитала лучшие кодовые способности предшественницы GPT-5.3-Codex, при этом значительно улучшив работу с профессиональными задачами: таблицами, презентациями и документами.
Tool Search: работа с десятками инструментов без потери качества
Одно из ключевых нововведений — механизм Tool Search. Раньше, чтобы модель могла использовать внешние инструменты (MCP-серверы, API-коннекторы), все их определения загружались в контекст целиком, что съедало токены и замедляло работу.
Теперь GPT-5.4 получает лёгкий список доступных инструментов и при необходимости сама находит нужное определение. На тестах Scale MCP Atlas (36 MCP-серверов, 250 задач) новый подход сократил потребление токенов на 47% при той же точности. Для разработчиков, строящих агентов с множеством интеграций, это принципиальное улучшение.
Контекстное окно до 1,05 миллиона токенов
В API стандартное контекстное окно GPT-5.4 составляет 272K токенов. Но в Codex доступна экспериментальная поддержка контекста до 1,05 миллиона токенов. Запросы, выходящие за 272K, тарифицируются по двойной ставке.
Также обновлена работа с изображениями: модель поддерживает полноразмерный ввод до 10,24 мегапикселя (максимум 6000 пикселей по одной стороне) — скриншоты и фотографии документов можно подавать без сжатия.
Бенчмарки: полная картина
GPT-5.4 устанавливает новые стандарты по целому ряду профессиональных бенчмарков. Ниже — полные результаты с сравнением по всем конкурентам.
Профессиональные и knowledge-задачи
| Бенчмарк | GPT-5.2 | GPT-5.4 | Opus 4.6 |
|---|---|---|---|
| GDPval (44 профессии, win/tie) | 70,9% | 83,0% | 78,0% |
| IB Modeling (инвестбанкинг, таблицы) | 68,4% | 87,3% | — |
| OfficeQA (работа с документами) | 63,1% | 68,1% | — |
| Предпочтение презентаций (люди) | baseline | 68% выбрали GPT-5.4 | — |
Computer Use и зрение
| Бенчмарк | GPT-5.2 | GPT-5.4 | Opus 4.6 | Человек |
|---|---|---|---|---|
| OSWorld-Verified (десктоп) | 47,3% | 75,0% | 72,7% | 72,4% |
| WebArena-Verified (браузер) | 65,4% | 67,3% | — | — |
| Online-Mind2Web (скриншоты) | — | 92,8% | — | — |
| MMMU Pro (мультимодальность) | 79,5% | 81,2% | — | — |
| OmniDocBench (средняя ошибка ↓) | 0,140 | 0,109 | — | — |
Код и инженерия
| Бенчмарк | GPT-5.2 | GPT-5.3-Codex | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro (публичный) | 55,6% | 56,8% | 57,7% | 54,2% |
| Terminal-Bench 2.0 | 62,2% | 77,3% | 75,1% | — |
Агентные задачи и инструменты
| Бенчмарк | GPT-5.2 | GPT-5.4 | GPT-5.4 Pro | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| Toolathlon | 45,7% | 54,6% | — | 44,8% | — |
| MCP Atlas | 60,6% | 67,2% | — | — | — |
| BrowseComp (веб-навигация) | 65,8% | 82,7% | 89,3% | — | 85,9% |
| τ2-bench Telecom | 57,2% | 64,3% | — | — | — |
Рассуждения и научные задачи
| Бенчмарк | GPT-5.2 | GPT-5.4 | GPT-5.4 Pro | Gemini 3.1 Pro |
|---|---|---|---|---|
| GPQA Diamond (аспирантские вопросы) | 92,4% | 92,8% | 94,4% | 94,3% |
| Humanity’s Last Exam | 45,5% | 52,1% | 58,7% | — |
| Frontier Science Research | 25,2% | 33,0% | 36,7% | — |
| FrontierMath Tier 1-3 | 40,7% | 47,6% | 50,0% | — |
| FrontierMath Tier 4 | 18,8% | 27,1% | 38,0% | — |
| ARC-AGI-1 (Verified) | 86,2% | 93,7% | 94,5% | — |
| ARC-AGI-2 (Verified) | 52,9% | 73,3% | 83,3% | — |
Длинный контекст
| Бенчмарк | 0-128K | 256K-1M |
|---|---|---|
| Graphwalks BFS | 93,0% | 21,4% |
| Graphwalks Parents | — | 32,4% |
| MRCR Needle-Retrieval | 86,0% | 36,6% |
На коротком контексте (до 128K) модель показывает высокие результаты, но при расширении до 1M токенов производительность заметно падает — это экспериментальная функция, и OpenAI честно это признаёт.
Меньше ошибок, выше точность
По данным OpenAI, GPT-5.4 на 33% реже допускает фактические ошибки в отдельных утверждениях по сравнению с GPT-5.2. В целом вероятность ошибки в ответе снизилась на 18%. Для задач, где точность критична — юриспруденция, финансовый анализ, медицинские консультации — это существенное улучшение.
Три версии, три ценовых уровня
OpenAI выпускает GPT-5.4 в трёх вариантах:
- GPT-5.4 Thinking — для сложных профессиональных задач и длительных рабочих процессов. Доступен пользователям Plus, Team и Pro. Цена API: $2,50 / $15 за миллион входных/выходных токенов (у GPT-5.2 было $1,75 / $14).
- GPT-5.4 Pro — максимальная производительность для самых требовательных задач. Доступен на тарифах Pro и Enterprise. Цена API: $30 / $180 за миллион токенов (у GPT-5.2 Pro было $21 / $168) — самая дорогая модель OpenAI.
- GPT-5.4 (стандартная) — базовая версия, доступная через API.
Несмотря на рост цен, OpenAI утверждает, что модель выполняет задачи за меньшее количество токенов, что в итоге снижает реальные затраты.
Что это значит для разработчиков
GPT-5.4 — это конвергенция возможностей, которые раньше требовали разных моделей. Кодирование уровня GPT-5.3-Codex, рассуждения, управление компьютером и работа с огромным контекстом — всё в одной модели. Tool Search делает архитектуру агентов проще и дешевле, а computer use открывает путь к автоматизации задач, которые раньше требовали человека за экраном.
Модель уже доступна в ChatGPT, API (как gpt-5.4) и Codex. GPT-5.3 Instant при этом остаётся моделью по умолчанию для повседневных разговоров в ChatGPT — OpenAI подчёркивает, что линейки Instant и Thinking развиваются параллельно и с разной скоростью.













