Научный ИИ за четыре месяца утроил точность в решении задач по физике — новый рекорд GPT-5.4 Pro

470
Научный ИИ за четыре месяца утроил точность в решении задач по физике — новый рекорд GPT-5.4 Pro

В ноябре 2025 года лучшая языковая модель решала исследовательские задачи по физике с точностью 9%. Спустя менее четырёх месяцев новая модель OpenAI достигла 30%. Рост на 233% — крупнейший скачок за один релиз в истории бенчмарка CritPt. Разбираемся, что именно произошло, почему это важно и какие перспективы открывает для науки.

Бенчмарк CritPt

Большинство популярных тестов для ИИ проверяют способность решать олимпиадные задачи, отвечать на вопросы из учебников или генерировать код. CritPt (Complex Research using Integrated Thinking — Physics Test) работает принципиально иначе. Этот бенчмарк создан для оценки того, насколько модель способна мыслить как учёный-физик, а не как студент на экзамене.

Над созданием CritPt работали более 50 действующих физиков из десятков научных институтов мира. Они подготовили 71 комплексную исследовательскую задачу, каждая из которых имитирует мини-научный проект. Модели предлагается не просто подставить формулу, а пройти полный исследовательский цикл:

  • Сформулировать гипотезу на основе условий задачи
  • Провести многошаговые аналитические и численные вычисления
  • Построить и проанализировать физическую модель
  • Верифицировать полученные результаты на внутреннюю согласованность

Структура бенчмарка CritPt — типы задач и контрольные точки

Для более тонкой диагностики каждая задача разбита на ~190 промежуточных контрольных точек (чекпойнтов). Они позволяют определить, на каком именно этапе рассуждения модель начинает ошибаться: при постановке задачи, в ходе вычислений или на этапе интерпретации результатов.

Защита от «угадывания» и заучивания

Ключевая проблема многих ИИ-бенчмарков — утечка данных. Если задачи опубликованы в открытом доступе, модель может «запомнить» ответы в процессе обучения, что делает оценку бессмысленной. CritPt решает эту проблему радикально:

  • Закрытый датасет — все задачи основаны на неопубликованных исследованиях, которые не могли попасть в обучающую выборку
  • Устойчивые к угадыванию ответы — результатом может быть массив чисел, символьное выражение или даже Python-функция
  • Автоматическая проверка — система оценки запускает код и сверяет результат с эталоном, исключая субъективность

Такой дизайн позволяет измерять именно способность к научному рассуждению, а не извлечение фактов из обучающих данных. По сути, CritPt ставит ИИ в положение исследователя, впервые столкнувшегося с новой задачей.

От 9% до 30%: хронология прорыва

Данные аналитической платформы Artificial Analysis демонстрируют масштаб произошедшего скачка. В ноябре 2025 года на вершине рейтинга CritPt находилась модель Gemini 3 Pro Preview от Google с результатом 9%. Это означало, что лучший в мире ИИ справлялся лишь с каждой одиннадцатой исследовательской задачей по физике.

График результатов бенчмарка CritPt — рост с 9% до 30% за 4 месяца

В марте 2026 года GPT-5.4 Pro в режиме максимальных рассуждений (xhigh) поднял планку до 30%. Ключевые цифры:

Параметр Ноябрь 2025 Март 2026
Лучшая модель Gemini 3 Pro Preview GPT-5.4 Pro (xhigh)
Точность CritPt 9% 30%
Абсолютный прирост +21 п.п.
Относительный прирост +233%

Это самый большой прирост за один релиз модели в истории бенчмарка. Для сравнения: предыдущие поколения моделей улучшали результат на 1–3 процентных пункта между версиями.

Почему режим «xhigh» имеет значение

GPT-5.4 Pro поддерживает несколько уровней «глубины рассуждения». Режим xhigh — максимальный: модель тратит значительно больше вычислительных ресурсов на каждый ответ, выстраивая длинные цепочки логических выводов перед тем, как дать финальный результат.

Фактически, это означает, что модель «думает дольше» над каждой задачей — подобно тому, как опытный физик не торопится с ответом на сложный вопрос, а последовательно проверяет различные подходы, отсекая тупиковые ветви рассуждений. Именно эта способность к глубокому, многошаговому анализу оказалась ключевой для прорыва в CritPt.

Результат в 30% может показаться скромным — модель всё ещё «заваливает» большинство задач. Однако важна не абсолютная цифра, а динамика и характер прогресса:

  • Экспоненциальный рост. Переход от 9% к 30% за четыре месяца — это темп, который превосходит прогнозы большинства экспертов. Если он сохранится, к концу 2026 года мы можем увидеть модели, решающие более половины исследовательских задач
  • Качественный сдвиг. Модель проходит не только начальные этапы рассуждения, но и промежуточные чекпойнты — это свидетельствует о реальном понимании физических концепций, а не о случайных совпадениях
  • Приближение к ИИ-учёным. OpenAI открыто заявляла, что её стратегическая цель — создание автономных агентов, способных проводить научные исследования и делать открытия. Результаты CritPt показывают, что эта цель перестала быть абстрактной

Перспективы

Сегодня ИИ-модели уже помогают учёным с обзором литературы, рутинными вычислениями и генерацией гипотез. Но результаты CritPt намекают на следующий этап: модели, способные самостоятельно формулировать исследовательские вопросы, проектировать эксперименты и находить неочевидные закономерности в данных.

Конечно, от 30% точности в бенчмарке до полноценного ИИ-исследователя — дистанция огромного размера. Но ещё полгода назад и 9% казались потолком. Темп прогресса заставляет пересматривать привычные горизонты планирования: то, что вчера казалось задачей на десятилетие, сегодня выглядит вопросом ближайших лет.

Главный вывод: мы находимся в точке, где ИИ перестаёт быть просто инструментом автоматизации и начинает претендовать на роль полноценного участника научного процесса. И скорость, с которой это происходит, впечатляет даже оптимистов.

Последнее изменение:

0 Комментарии
Популярные
Новые Старые
Inline Feedbacks
Посмотреть все комментарии