Флагманские ИИ-модели не набирают пока и 40% в «Последнем экзамене человечества»
Популярные тесты вроде MMLU уже давно не представляют сложности для современных моделей — многие системы показывают более 90% точности. При этом способности ИИ на уровне сложных академических знаний измерить непросто. HLE задумывался как решение этой проблемы: набор вопросов проверяет не бытовую эрудицию, а глубину рассуждений и навыки анализа. Статья о проекте была https://www.nature.com/articles/s41586-025-09962-4 в журнале Nature в январе 2026 года. Сам тест был представлен в начале 2025 года американской некоммерческой организацией Center for AI Safety и компанией Scale AI.
HLE разработан с участием 1000 международных экспертов из более чем 500 учреждений в 50 странах. Чтобы стимулировать участников создавать действительно сложные вопросы, организаторы выделили призовой фонд в $500 000: по $5000 получили авторы 50 лучших заданий, а по $500— следующие 500. Через строгий отбор прошло множество предложений, но в финальный публичный набор включили 2 500 вопросов. Кроме того, сохраняется закрытый «резерв» заданий, который используется для проверки переобучения моделей на уже опубликованных вопросах.
Экзамен включает 14% мультимодальных задач (текст + изображение), 24% вопросов со множественным выбором, а остальное — короткие ответы с автоматической проверкой. Математика составляет 41% заданий, остальные вопросы — физика, биология, информатика и гуманитарные дисциплины. Каждый вопрос сопровождается подробным обоснованием решения, чтобы обеспечить проверяемость и высокую сложность.
На старте HLE в январе 2025 года ведущие модели показали крайне низкую точность: GPT-4o — 2,7%, Claude 3.5 Sonnet — 4,1%, o1 — 8%. Сейчас показатели выросли, но ни одна модель не достигла даже половины уровня эксперта-человека, составляющего примерно 90% https://scale.com/leaderboard/humanitys_last_exam Gemini 3 Pro Preview с точностью 37,52%, за ней следуют GPT-5 с 31,64% и Claude Opus 4.5 с 25,2%.
Что касается китайских систем, в мультимодальной таблице они показывают низкие результаты: glm-4p5 и glm-4p5-air от Zhipu AI — 8,32% и 8,12% соответственно, что на десятки процентных пунктов ниже лидеров. В текстовой версии (без изображений) показатели выше: Alibaba Qwen3 набрала 15,43%, DeepSeek — 14,04%, но они всё равно уступают американским моделям.
Создатели HLE подчеркивают, что важно учитывать не только процент правильных ответов, но и то, насколько модель умеет оценивать собственную уверенность. В статье в Nature отмечается, что многие системы дают неверные ответы, оставаясь при этом уверенными в себе. Поэтому была введена метрика «ошибка калибровки» (RMS calibration error), которая показывает, насколько заявленная моделью уверенность совпадает с её реальной точностью. Чем меньше значение, тем лучше. В таблице Scale эта метрика указана рядом с точностью: у Gemini 3 Pro Preview она равна 57, у последней версии GPT-5 — 49, тогда как у большинства моделей она превышает 70%. То есть даже сильные системы могут звучать уверенно, но ошибаться.
Более высокие результаты в бенчмарках не следует отождествлять с прогрессом в достижении общего искусственного интеллекта, предостерегают исследователи. Модели оптимизируют свои ответы под структуру теста, а не развивают суждение, как человек.
В отличие от людей, которые учатся, взаимодействуя с окружающим миром и накапливая опыт, ИИ лишь выявляет закономерности в текстах. Для него язык — это не инструмент мышления, а само мышление. Поэтому высокий балл показывает мастерство решения экзаменационных задач, но никак не понимание или автономные интеллектуальные способности. Учитывая эти ограничения, OpenAI, например, https://openai.com/ru-ru/index/gdpval/ показатель под названием GDPval, который оценивает практическую полезность ИИ.