Ученые создали самый сложный тест для ИИ, и результаты удивительны
Международная группа исследователей разработала экзамен из 2500 вопросов, который современные ИИ-системы не могут пройти, выявив значительный разрыв между их возможностями и экспертными знаниями человека
Short Summary
Исследователи создали "Последний экзамен человечества" (HLE) — тест из 2500 сложных вопросов по узкоспециализированным темам, который современные передовые ИИ-системы не могут пройти успешно. Даже самые мощные модели, такие как GPT-4o и Claude 3.5 Sonnet, показывают результаты в диапазоне от 2,7% до 50% правильных ответов, что демонстрирует сохраняющийся значительный разрыв между ИИ и человеческим интеллектом.
Тест был разработан почти 1000 экспертов из разных областей знаний, включая математику, гуманитарные науки, естественные науки и древние языки. Каждый вопрос имел один чёткий ответ и был проверен на ведущих ИИ-системах — если какая-либо модель могла правильно ответить, вопрос исключался из финального экзамена. Это гарантировало, что тест останется за пределами возможностей современных ИИ.
Создание HLE подчёркивает необходимость новых эталонов для оценки ИИ, поскольку старые тесты больше не отражают реальные возможности систем. Экзамен не предназначен для демонстрации превосходства человека, а служит инструментом для понимания сильных и слабых сторон ИИ, что поможет в разработке более безопасных и надёжных технологий, а также напомнит о ценности человеческой экспертизы.
Провал передовых ИИ на сложном тесте
Даже самые современные модели ИИ (GPT-4o, Claude 3.5 Sonnet) показали крайне низкие результаты — от 2,7% до 50% правильных ответов на экзамене из 2500 вопросов
Коллективная разработка экспертов
Тест создан международной группой из почти 1000 специалистов разных областей (историки, физики, лингвисты, медики), что обеспечило его междисциплинарную сложность
Методология исключения решаемых вопросов
Любой вопрос, на который могла правильно ответить хотя бы одна ИИ-система, удалялся из финального экзамена, гарантируя его недоступность для современных технологий
Необходимость новых эталонов оценки
Традиционные тесты для ИИ устарели и не отражают реальных возможностей систем, что создаёт риски неверной интерпретации их способностей пользователями и разработчиками
Text generated using AI


