Вышла GPT-5.4: OpenAI объединила рассуждения, код и управление компьютером в одной модели

6 Мар 2026 3830

5 марта 2026 года OpenAI представила GPT-5.4 — свою самую мощную модель, которая впервые объединяет глубокое рассуждение, продвинутую генерацию кода и нативное управление компьютером. Модель выходит в трёх вариантах: GPT-5.4, GPT-5.4 Thinking и GPT-5.4 Pro — и уже доступна в ChatGPT, API и Codex.

Что нового в GPT-5.4

GPT-5.4 стала первой моделью OpenAI общего назначения с нативной поддержкой управления компьютером. Модель умеет работать с десктопными приложениями через скриншоты, мышь и клавиатуру, а также генерировать код для автоматизации через библиотеки вроде Playwright. Это не экспериментальная функция — computer use встроен как базовая возможность, доступная через API и Codex.

Помимо этого, GPT-5.4 впитала лучшие кодовые способности предшественницы GPT-5.3-Codex, при этом значительно улучшив работу с профессиональными задачами: таблицами, презентациями и документами.

Tool Search: работа с десятками инструментов без потери качества

Одно из ключевых нововведений — механизм Tool Search. Раньше, чтобы модель могла использовать внешние инструменты (MCP-серверы, API-коннекторы), все их определения загружались в контекст целиком, что съедало токены и замедляло работу.

Теперь GPT-5.4 получает лёгкий список доступных инструментов и при необходимости сама находит нужное определение. На тестах Scale MCP Atlas (36 MCP-серверов, 250 задач) новый подход сократил потребление токенов на 47% при той же точности. Для разработчиков, строящих агентов с множеством интеграций, это принципиальное улучшение.

Контекстное окно до 1,05 миллиона токенов

В API стандартное контекстное окно GPT-5.4 составляет 272K токенов. Но в Codex доступна экспериментальная поддержка контекста до 1,05 миллиона токенов. Запросы, выходящие за 272K, тарифицируются по двойной ставке.

Также обновлена работа с изображениями: модель поддерживает полноразмерный ввод до 10,24 мегапикселя (максимум 6000 пикселей по одной стороне) — скриншоты и фотографии документов можно подавать без сжатия.

Бенчмарки: полная картина

GPT-5.4 устанавливает новые стандарты по целому ряду профессиональных бенчмарков. Ниже — полные результаты с сравнением по всем конкурентам.

Профессиональные и knowledge-задачи

Бенчмарк	GPT-5.2	GPT-5.4	Opus 4.6
GDPval (44 профессии, win/tie)	70,9%	83,0%	78,0%
IB Modeling (инвестбанкинг, таблицы)	68,4%	87,3%	—
OfficeQA (работа с документами)	63,1%	68,1%	—
Предпочтение презентаций (люди)	baseline	68% выбрали GPT-5.4	—

Computer Use и зрение

Бенчмарк	GPT-5.2	GPT-5.4	Opus 4.6	Человек
OSWorld-Verified (десктоп)	47,3%	75,0%	72,7%	72,4%
WebArena-Verified (браузер)	65,4%	67,3%	—	—
Online-Mind2Web (скриншоты)	—	92,8%	—	—
MMMU Pro (мультимодальность)	79,5%	81,2%	—	—
OmniDocBench (средняя ошибка ↓)	0,140	0,109	—	—

Код и инженерия

Бенчмарк	GPT-5.2	GPT-5.3-Codex	GPT-5.4	Gemini 3.1 Pro
SWE-Bench Pro (публичный)	55,6%	56,8%	57,7%	54,2%
Terminal-Bench 2.0	62,2%	77,3%	75,1%	—

Агентные задачи и инструменты

Бенчмарк	GPT-5.2	GPT-5.4	GPT-5.4 Pro	Opus 4.6	Gemini 3.1 Pro
Toolathlon	45,7%	54,6%	—	44,8%	—
MCP Atlas	60,6%	67,2%	—	—	—
BrowseComp (веб-навигация)	65,8%	82,7%	89,3%	—	85,9%
τ2-bench Telecom	57,2%	64,3%	—	—	—

Рассуждения и научные задачи

Бенчмарк	GPT-5.2	GPT-5.4	GPT-5.4 Pro	Gemini 3.1 Pro
GPQA Diamond (аспирантские вопросы)	92,4%	92,8%	94,4%	94,3%
Humanity’s Last Exam	45,5%	52,1%	58,7%	—
Frontier Science Research	25,2%	33,0%	36,7%	—
FrontierMath Tier 1-3	40,7%	47,6%	50,0%	—
FrontierMath Tier 4	18,8%	27,1%	38,0%	—
ARC-AGI-1 (Verified)	86,2%	93,7%	94,5%	—
ARC-AGI-2 (Verified)	52,9%	73,3%	83,3%	—

Длинный контекст

Бенчмарк	0-128K	256K-1M
Graphwalks BFS	93,0%	21,4%
Graphwalks Parents	—	32,4%
MRCR Needle-Retrieval	86,0%	36,6%

На коротком контексте (до 128K) модель показывает высокие результаты, но при расширении до 1M токенов производительность заметно падает — это экспериментальная функция, и OpenAI честно это признаёт.

Меньше ошибок, выше точность

По данным OpenAI, GPT-5.4 на 33% реже допускает фактические ошибки в отдельных утверждениях по сравнению с GPT-5.2. В целом вероятность ошибки в ответе снизилась на 18%. Для задач, где точность критична — юриспруденция, финансовый анализ, медицинские консультации — это существенное улучшение.

Три версии, три ценовых уровня

OpenAI выпускает GPT-5.4 в трёх вариантах:

GPT-5.4 Thinking — для сложных профессиональных задач и длительных рабочих процессов. Доступен пользователям Plus, Team и Pro. Цена API: $2,50 / $15 за миллион входных/выходных токенов (у GPT-5.2 было $1,75 / $14).
GPT-5.4 Pro — максимальная производительность для самых требовательных задач. Доступен на тарифах Pro и Enterprise. Цена API: $30 / $180 за миллион токенов (у GPT-5.2 Pro было $21 / $168) — самая дорогая модель OpenAI.
GPT-5.4 (стандартная) — базовая версия, доступная через API.

Несмотря на рост цен, OpenAI утверждает, что модель выполняет задачи за меньшее количество токенов, что в итоге снижает реальные затраты.

Что это значит для разработчиков

GPT-5.4 — это конвергенция возможностей, которые раньше требовали разных моделей. Кодирование уровня GPT-5.3-Codex, рассуждения, управление компьютером и работа с огромным контекстом — всё в одной модели. Tool Search делает архитектуру агентов проще и дешевле, а computer use открывает путь к автоматизации задач, которые раньше требовали человека за экраном.

Модель уже доступна в ChatGPT, API (как gpt-5.4) и Codex. GPT-5.3 Instant при этом остаётся моделью по умолчанию для повседневных разговоров в ChatGPT — OpenAI подчёркивает, что линейки Instant и Thinking развиваются параллельно и с разной скоростью.