Вышла GPT-5.4: OpenAI объединила рассуждения, код и управление компьютером в одной модели

470
Вышла GPT-5.4: OpenAI объединила рассуждения, код и управление компьютером в одной модели

5 марта 2026 года OpenAI представила GPT-5.4 — свою самую мощную модель, которая впервые объединяет глубокое рассуждение, продвинутую генерацию кода и нативное управление компьютером. Модель выходит в трёх вариантах: GPT-5.4, GPT-5.4 Thinking и GPT-5.4 Pro — и уже доступна в ChatGPT, API и Codex.

Что нового в GPT-5.4

GPT-5.4 стала первой моделью OpenAI общего назначения с нативной поддержкой управления компьютером. Модель умеет работать с десктопными приложениями через скриншоты, мышь и клавиатуру, а также генерировать код для автоматизации через библиотеки вроде Playwright. Это не экспериментальная функция — computer use встроен как базовая возможность, доступная через API и Codex.

Помимо этого, GPT-5.4 впитала лучшие кодовые способности предшественницы GPT-5.3-Codex, при этом значительно улучшив работу с профессиональными задачами: таблицами, презентациями и документами.

Tool Search: работа с десятками инструментов без потери качества

Одно из ключевых нововведений — механизм Tool Search. Раньше, чтобы модель могла использовать внешние инструменты (MCP-серверы, API-коннекторы), все их определения загружались в контекст целиком, что съедало токены и замедляло работу.

Теперь GPT-5.4 получает лёгкий список доступных инструментов и при необходимости сама находит нужное определение. На тестах Scale MCP Atlas (36 MCP-серверов, 250 задач) новый подход сократил потребление токенов на 47% при той же точности. Для разработчиков, строящих агентов с множеством интеграций, это принципиальное улучшение.

Контекстное окно до 1,05 миллиона токенов

В API стандартное контекстное окно GPT-5.4 составляет 272K токенов. Но в Codex доступна экспериментальная поддержка контекста до 1,05 миллиона токенов. Запросы, выходящие за 272K, тарифицируются по двойной ставке.

Также обновлена работа с изображениями: модель поддерживает полноразмерный ввод до 10,24 мегапикселя (максимум 6000 пикселей по одной стороне) — скриншоты и фотографии документов можно подавать без сжатия.

Бенчмарки: полная картина

GPT-5.4 устанавливает новые стандарты по целому ряду профессиональных бенчмарков. Ниже — полные результаты с сравнением по всем конкурентам.

Профессиональные и knowledge-задачи

БенчмаркGPT-5.2GPT-5.4Opus 4.6
GDPval (44 профессии, win/tie)70,9%83,0%78,0%
IB Modeling (инвестбанкинг, таблицы)68,4%87,3%
OfficeQA (работа с документами)63,1%68,1%
Предпочтение презентаций (люди)baseline68% выбрали GPT-5.4

Computer Use и зрение

БенчмаркGPT-5.2GPT-5.4Opus 4.6Человек
OSWorld-Verified (десктоп)47,3%75,0%72,7%72,4%
WebArena-Verified (браузер)65,4%67,3%
Online-Mind2Web (скриншоты)92,8%
MMMU Pro (мультимодальность)79,5%81,2%
OmniDocBench (средняя ошибка ↓)0,1400,109

Код и инженерия

БенчмаркGPT-5.2GPT-5.3-CodexGPT-5.4Gemini 3.1 Pro
SWE-Bench Pro (публичный)55,6%56,8%57,7%54,2%
Terminal-Bench 2.062,2%77,3%75,1%

Агентные задачи и инструменты

БенчмаркGPT-5.2GPT-5.4GPT-5.4 ProOpus 4.6Gemini 3.1 Pro
Toolathlon45,7%54,6%44,8%
MCP Atlas60,6%67,2%
BrowseComp (веб-навигация)65,8%82,7%89,3%85,9%
τ2-bench Telecom57,2%64,3%

Рассуждения и научные задачи

БенчмаркGPT-5.2GPT-5.4GPT-5.4 ProGemini 3.1 Pro
GPQA Diamond (аспирантские вопросы)92,4%92,8%94,4%94,3%
Humanity’s Last Exam45,5%52,1%58,7%
Frontier Science Research25,2%33,0%36,7%
FrontierMath Tier 1-340,7%47,6%50,0%
FrontierMath Tier 418,8%27,1%38,0%
ARC-AGI-1 (Verified)86,2%93,7%94,5%
ARC-AGI-2 (Verified)52,9%73,3%83,3%

Длинный контекст

Бенчмарк0-128K256K-1M
Graphwalks BFS93,0%21,4%
Graphwalks Parents32,4%
MRCR Needle-Retrieval86,0%36,6%

На коротком контексте (до 128K) модель показывает высокие результаты, но при расширении до 1M токенов производительность заметно падает — это экспериментальная функция, и OpenAI честно это признаёт.

Меньше ошибок, выше точность

По данным OpenAI, GPT-5.4 на 33% реже допускает фактические ошибки в отдельных утверждениях по сравнению с GPT-5.2. В целом вероятность ошибки в ответе снизилась на 18%. Для задач, где точность критична — юриспруденция, финансовый анализ, медицинские консультации — это существенное улучшение.

Три версии, три ценовых уровня

OpenAI выпускает GPT-5.4 в трёх вариантах:

  • GPT-5.4 Thinking — для сложных профессиональных задач и длительных рабочих процессов. Доступен пользователям Plus, Team и Pro. Цена API: $2,50 / $15 за миллион входных/выходных токенов (у GPT-5.2 было $1,75 / $14).
  • GPT-5.4 Pro — максимальная производительность для самых требовательных задач. Доступен на тарифах Pro и Enterprise. Цена API: $30 / $180 за миллион токенов (у GPT-5.2 Pro было $21 / $168) — самая дорогая модель OpenAI.
  • GPT-5.4 (стандартная) — базовая версия, доступная через API.

Несмотря на рост цен, OpenAI утверждает, что модель выполняет задачи за меньшее количество токенов, что в итоге снижает реальные затраты.

Что это значит для разработчиков

GPT-5.4 — это конвергенция возможностей, которые раньше требовали разных моделей. Кодирование уровня GPT-5.3-Codex, рассуждения, управление компьютером и работа с огромным контекстом — всё в одной модели. Tool Search делает архитектуру агентов проще и дешевле, а computer use открывает путь к автоматизации задач, которые раньше требовали человека за экраном.

Модель уже доступна в ChatGPT, API (как gpt-5.4) и Codex. GPT-5.3 Instant при этом остаётся моделью по умолчанию для повседневных разговоров в ChatGPT — OpenAI подчёркивает, что линейки Instant и Thinking развиваются параллельно и с разной скоростью.

Последнее изменение:

0 Комментарии
Популярные
Новые Старые
Inline Feedbacks
Посмотреть все комментарии