Флагманские ИИ-модели не набирают пока и 40% в «Последнем экзамене человечества»

04.02.2026 16:39

Популярные тесты вроде MMLU уже давно не представляют сложности для современных моделей — многие системы показывают более 90% точности. При этом способности ИИ на уровне сложных академических знаний измерить непросто. HLE задумывался как решение этой проблемы: набор вопросов проверяет не бытовую эрудицию, а глубину рассуждений и навыки анализа. Статья о проекте была https://www.nature.com/articles/s41586-025-09962-4 в журнале Nature в январе 2026 года. Сам тест был представлен в начале 2025 года американской некоммерческой организацией Center for AI Safety и компанией Scale AI.

HLE разработан с участием 1000 международных экспертов из более чем 500 учреждений в 50 странах. Чтобы стимулировать участников создавать действительно сложные вопросы, организаторы выделили призовой фонд в $500 000: по $5000 получили авторы 50 лучших заданий, а по $500— следующие 500. Через строгий отбор прошло множество предложений, но в финальный публичный набор включили 2 500 вопросов. Кроме того, сохраняется закрытый «резерв» заданий, который используется для проверки переобучения моделей на уже опубликованных вопросах.

Экзамен включает 14% мультимодальных задач (текст + изображение), 24% вопросов со множественным выбором, а остальное — короткие ответы с автоматической проверкой. Математика составляет 41% заданий, остальные вопросы — физика, биология, информатика и гуманитарные дисциплины. Каждый вопрос сопровождается подробным обоснованием решения, чтобы обеспечить проверяемость и высокую сложность.

На старте HLE в январе 2025 года ведущие модели показали крайне низкую точность: GPT-4o — 2,7%, Claude 3.5 Sonnet — 4,1%, o1 — 8%. Сейчас показатели выросли, но ни одна модель не достигла даже половины уровня эксперта-человека, составляющего примерно 90% https://scale.com/leaderboard/humanitys_last_exam Gemini 3 Pro Preview с точностью 37,52%, за ней следуют GPT-5 с 31,64% и Claude Opus 4.5 с 25,2%.

Что касается китайских систем, в мультимодальной таблице они показывают низкие результаты: glm-4p5 и glm-4p5-air от Zhipu AI — 8,32% и 8,12% соответственно, что на десятки процентных пунктов ниже лидеров. В текстовой версии (без изображений) показатели выше: Alibaba Qwen3 набрала 15,43%, DeepSeek — 14,04%, но они всё равно уступают американским моделям.

Создатели HLE подчеркивают, что важно учитывать не только процент правильных ответов, но и то, насколько модель умеет оценивать собственную уверенность. В статье в Nature отмечается, что многие системы дают неверные ответы, оставаясь при этом уверенными в себе. Поэтому была введена метрика «ошибка калибровки» (RMS calibration error), которая показывает, насколько заявленная моделью уверенность совпадает с её реальной точностью. Чем меньше значение, тем лучше. В таблице Scale эта метрика указана рядом с точностью: у Gemini 3 Pro Preview она равна 57, у последней версии GPT-5 — 49, тогда как у большинства моделей она превышает 70%. То есть даже сильные системы могут звучать уверенно, но ошибаться.

Более высокие результаты в бенчмарках не следует отождествлять с прогрессом в достижении общего искусственного интеллекта, предостерегают исследователи. Модели оптимизируют свои ответы под структуру теста, а не развивают суждение, как человек.

В отличие от людей, которые учатся, взаимодействуя с окружающим миром и накапливая опыт, ИИ лишь выявляет закономерности в текстах. Для него язык — это не инструмент мышления, а само мышление. Поэтому высокий балл показывает мастерство решения экзаменационных задач, но никак не понимание или автономные интеллектуальные способности. Учитывая эти ограничения, OpenAI, например, https://openai.com/ru-ru/index/gdpval/ показатель под названием GDPval, который оценивает практическую полезность ИИ.

Читайте на сайте

Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.

Новости от наших партнёров в Вашем городе

Ria.city

Музыкальные новости

Новости России

Экология в России и мире

Спорт в России и мире

Moscow.media

103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня

Новости 24/7 Все города России

Топ 10 новостей последнего часа

Moscow.media

103news.com — международная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Спорт в России и мире