Вышла GPT-5.4: OpenAI объединила рассуждения, код и управление компьютером в одной модели

2280
Вышла GPT-5.4: OpenAI объединила рассуждения, код и управление компьютером в одной модели

5 марта 2026 года OpenAI представила GPT-5.4 — свою самую мощную модель, которая впервые объединяет глубокое рассуждение, продвинутую генерацию кода и нативное управление компьютером. Модель выходит в трёх вариантах: GPT-5.4, GPT-5.4 Thinking и GPT-5.4 Pro — и уже доступна в ChatGPT, API и Codex.

Что нового в GPT-5.4

GPT-5.4 стала первой моделью OpenAI общего назначения с нативной поддержкой управления компьютером. Модель умеет работать с десктопными приложениями через скриншоты, мышь и клавиатуру, а также генерировать код для автоматизации через библиотеки вроде Playwright. Это не экспериментальная функция — computer use встроен как базовая возможность, доступная через API и Codex.

Помимо этого, GPT-5.4 впитала лучшие кодовые способности предшественницы GPT-5.3-Codex, при этом значительно улучшив работу с профессиональными задачами: таблицами, презентациями и документами.

Tool Search: работа с десятками инструментов без потери качества

Одно из ключевых нововведений — механизм Tool Search. Раньше, чтобы модель могла использовать внешние инструменты (MCP-серверы, API-коннекторы), все их определения загружались в контекст целиком, что съедало токены и замедляло работу.

Теперь GPT-5.4 получает лёгкий список доступных инструментов и при необходимости сама находит нужное определение. На тестах Scale MCP Atlas (36 MCP-серверов, 250 задач) новый подход сократил потребление токенов на 47% при той же точности. Для разработчиков, строящих агентов с множеством интеграций, это принципиальное улучшение.

Контекстное окно до 1,05 миллиона токенов

В API стандартное контекстное окно GPT-5.4 составляет 272K токенов. Но в Codex доступна экспериментальная поддержка контекста до 1,05 миллиона токенов. Запросы, выходящие за 272K, тарифицируются по двойной ставке.

Также обновлена работа с изображениями: модель поддерживает полноразмерный ввод до 10,24 мегапикселя (максимум 6000 пикселей по одной стороне) — скриншоты и фотографии документов можно подавать без сжатия.

Бенчмарки: полная картина

GPT-5.4 устанавливает новые стандарты по целому ряду профессиональных бенчмарков. Ниже — полные результаты с сравнением по всем конкурентам.

Профессиональные и knowledge-задачи

Бенчмарк GPT-5.2 GPT-5.4 Opus 4.6
GDPval (44 профессии, win/tie) 70,9% 83,0% 78,0%
IB Modeling (инвестбанкинг, таблицы) 68,4% 87,3%
OfficeQA (работа с документами) 63,1% 68,1%
Предпочтение презентаций (люди) baseline 68% выбрали GPT-5.4

Computer Use и зрение

Бенчмарк GPT-5.2 GPT-5.4 Opus 4.6 Человек
OSWorld-Verified (десктоп) 47,3% 75,0% 72,7% 72,4%
WebArena-Verified (браузер) 65,4% 67,3%
Online-Mind2Web (скриншоты) 92,8%
MMMU Pro (мультимодальность) 79,5% 81,2%
OmniDocBench (средняя ошибка ↓) 0,140 0,109

Код и инженерия

Бенчмарк GPT-5.2 GPT-5.3-Codex GPT-5.4 Gemini 3.1 Pro
SWE-Bench Pro (публичный) 55,6% 56,8% 57,7% 54,2%
Terminal-Bench 2.0 62,2% 77,3% 75,1%

Агентные задачи и инструменты

Бенчмарк GPT-5.2 GPT-5.4 GPT-5.4 Pro Opus 4.6 Gemini 3.1 Pro
Toolathlon 45,7% 54,6% 44,8%
MCP Atlas 60,6% 67,2%
BrowseComp (веб-навигация) 65,8% 82,7% 89,3% 85,9%
τ2-bench Telecom 57,2% 64,3%

Рассуждения и научные задачи

Бенчмарк GPT-5.2 GPT-5.4 GPT-5.4 Pro Gemini 3.1 Pro
GPQA Diamond (аспирантские вопросы) 92,4% 92,8% 94,4% 94,3%
Humanity’s Last Exam 45,5% 52,1% 58,7%
Frontier Science Research 25,2% 33,0% 36,7%
FrontierMath Tier 1-3 40,7% 47,6% 50,0%
FrontierMath Tier 4 18,8% 27,1% 38,0%
ARC-AGI-1 (Verified) 86,2% 93,7% 94,5%
ARC-AGI-2 (Verified) 52,9% 73,3% 83,3%

Длинный контекст

Бенчмарк 0-128K 256K-1M
Graphwalks BFS 93,0% 21,4%
Graphwalks Parents 32,4%
MRCR Needle-Retrieval 86,0% 36,6%

На коротком контексте (до 128K) модель показывает высокие результаты, но при расширении до 1M токенов производительность заметно падает — это экспериментальная функция, и OpenAI честно это признаёт.

Меньше ошибок, выше точность

По данным OpenAI, GPT-5.4 на 33% реже допускает фактические ошибки в отдельных утверждениях по сравнению с GPT-5.2. В целом вероятность ошибки в ответе снизилась на 18%. Для задач, где точность критична — юриспруденция, финансовый анализ, медицинские консультации — это существенное улучшение.

Три версии, три ценовых уровня

OpenAI выпускает GPT-5.4 в трёх вариантах:

  • GPT-5.4 Thinking — для сложных профессиональных задач и длительных рабочих процессов. Доступен пользователям Plus, Team и Pro. Цена API: $2,50 / $15 за миллион входных/выходных токенов (у GPT-5.2 было $1,75 / $14).
  • GPT-5.4 Pro — максимальная производительность для самых требовательных задач. Доступен на тарифах Pro и Enterprise. Цена API: $30 / $180 за миллион токенов (у GPT-5.2 Pro было $21 / $168) — самая дорогая модель OpenAI.
  • GPT-5.4 (стандартная) — базовая версия, доступная через API.

Несмотря на рост цен, OpenAI утверждает, что модель выполняет задачи за меньшее количество токенов, что в итоге снижает реальные затраты.

Что это значит для разработчиков

GPT-5.4 — это конвергенция возможностей, которые раньше требовали разных моделей. Кодирование уровня GPT-5.3-Codex, рассуждения, управление компьютером и работа с огромным контекстом — всё в одной модели. Tool Search делает архитектуру агентов проще и дешевле, а computer use открывает путь к автоматизации задач, которые раньше требовали человека за экраном.

Модель уже доступна в ChatGPT, API (как gpt-5.4) и Codex. GPT-5.3 Instant при этом остаётся моделью по умолчанию для повседневных разговоров в ChatGPT — OpenAI подчёркивает, что линейки Instant и Thinking развиваются параллельно и с разной скоростью.

Последнее изменение:

0 Комментарии
Популярные
Новые Старые
Inline Feedbacks
Посмотреть все комментарии