Содержание статьи:
Искусственный интеллект стремительно меняет мир, но насколько он близок к уровню человеческого мышления? Чтобы ответить на этот вопрос, был создан «Последний экзамен человечества» — самый масштабный и сложный тест для нейросетей. Этот экзамен позволяет понять, какие интеллектуальные рубежи ИИ уже преодолел, а где всё ещё уступает человеку. О том, как устроен этот экзамен, кто его разрабатывал и какие результаты показывают ведущие языковые модели, расскажет данный материал.
Что представляет собой «Последний экзамен человечества»?
Идея создания уникального теста для искусственного интеллекта возникла как необходимость объективной проверки возможностей современных нейросетей. «Последний экзамен человечества» (Humanity’s Last Exam) представляет собой масштабное испытание, созданное для оценки реального уровня знаний и мышления ИИ.
Это не просто стандартный тест вроде университетских экзаменов, а тщательно продуманная система заданий, направленных на проверку способности моделей справляться с задачами, требующими глубокой эрудиции и критического мышления.
Особенности экзамена:
- Огромный охват тематик. Задания охватывают десятки областей науки: от анатомии редких животных до философских концепций и древних письменностей;
- Высокая сложность вопросов. Для успешного выполнения требуется не только знание фактов, но и способность к анализу, синтезу данных и оригинальному мышлению;
- Ручная проверка качества. Каждый вопрос теста проходит строгую проверку экспертами, чтобы гарантировать его корректность и уникальность.
Само название теста звучит символично и драматично, подчёркивая его значение как потенциальной «последней черты» перед выходом ИИ на качественно новый уровень развития. Пока ни одна из существующих моделей не смогла преодолеть этот барьер, что делает экзамен важнейшим ориентиром для всей индустрии искусственного интеллекта.
Как устроен тест и кто его создавал?
Создание «Последнего экзамена человечества» — результат работы огромной команды специалистов. Центр безопасности ИИ (CAIS) совместно с компанией Scale AI разработали структуру теста, которая включает около 3000 вопросов. Эти задания покрывают широкий спектр дисциплин, от точных наук до гуманитарных исследований.
Организация работы выглядела следующим образом:
- Формирование команды экспертов. Почти 1000 специалистов из более чем 500 учреждений по всему миру приняли участие в составлении вопросов;
- Отбор тематик и типов заданий. Вопросы разрабатывались так, чтобы выходить за рамки стандартных школьных и университетских курсов;
- Проверка и фильтрация. Все задания проходили несколько этапов отбора, в том числе обязательную перепроверку на предмет корректности и сложности.
Примеры заданий включают:
- перевод древних текстов, не имеющих точных аналогов в современных языках;
- сложные задачи по ракетостроению и механике;
- философские дискуссии о природе сознания;
- специфические вопросы из области генетики редких видов животных.
Важный момент — многие вопросы не имеют готовых ответов в открытых источниках. Это делает невозможным простую «подтяжку» знаний с помощью интернета и требует от ИИ настоящего глубокого понимания материала.
Почему этот тест важен для развития ИИ?
Раньше тестирование нейросетей проводилось с помощью привычных школьных или академических заданий, где искусственный интеллект быстро достиг высоких результатов. Однако такие достижения мало говорили о настоящем уровне мышления машин. Именно поэтому понадобился новый рубеж, который позволил бы объективно оценить:
- Уровень аналитических способностей;
- Навык синтеза информации из разных источников;
- Способность к самостоятельным умозаключениям без прямого копирования знаний.

Экзамен важен по нескольким причинам:
- Определяет реальный прогресс. Он позволяет понять, насколько ИИ приблизились к экспертному уровню в науке, технике, философии;
- Формирует стандарты качества. Тест становится эталоном, на который ориентируются разработчики при обучении новых моделей;
- Мотивирует создание более совершенных систем. Осознание слабых мест стимулирует научные исследования в области обучения машин.
Эксперты подчеркивают: даже успешное прохождение такого теста не будет означать полной «заменяемости» человека. Но это станет знаком, что машины начали осваивать подлинно творческие и исследовательские задачи, ранее доступные только людям.
Какие результаты показывают современные искусственные интеллекты
На начало 2025 года результаты прохождения «Последнего экзамена человечества» показывают, насколько еще велики различия между человеком и ИИ. Наилучший результат среди всех протестированных моделей показала система OpenAI Deep Research, набравшая 26,6% правильных ответов. Для сравнения:
- большинство популярных моделей, таких как GPT-4o, Claude 3.5 Sonnet, Grok-2 и Gemini 2.0, показали результат менее 10%;
- успешные ответы в тесте связаны не только с качеством модели, но и с наличием доступа к интернет-ресурсам (что значительно облегчает поиск нужной информации).
Характерные черты модели OpenAI Deep Research:
- Умение находить нестандартные решения;
- Возможность активного поиска данных в сети;
- Улучшенные механизмы сопоставления и анализа разрозненных фактов.
Несмотря на достижения отдельных моделей, общий вывод очевиден: современные искусственные интеллекты ещё не готовы конкурировать с высококвалифицированными специалистами. Но темпы развития поражают: ожидается, что к концу 2025 года лучшие нейросети смогут преодолеть планку в 50% правильных ответов. Это станет значимым этапом в истории развития ИИ и, вероятно, подтолкнет к созданию новых ещё более сложных систем тестирования.
В этом контексте «Последний экзамен человечества» выполняет роль не только оценщика возможностей искусственного интеллекта, но и катализатора его стремительного роста.