Ученые создали самый сложный тест для ИИ, и результаты удивительны

Международная группа исследователей разработала экзамен из 2500 вопросов, который современные ИИ-системы не могут пройти, выявив значительный разрыв между их возможностями и экспертными знаниями человека

Scientists built the hardest AI test ever and the results are surprising | ScienceDaily

sciencedaily.com

Короткое резюме

Исследователи создали "Последний экзамен человечества" (HLE) — тест из 2500 сложных вопросов по узкоспециализированным темам, который современные передовые ИИ-системы не могут пройти успешно. Даже самые мощные модели, такие как GPT-4o и Claude 3.5 Sonnet, показывают результаты в диапазоне от 2,7% до 50% правильных ответов, что демонстрирует сохраняющийся значительный разрыв между ИИ и человеческим интеллектом.

Тест был разработан почти 1000 экспертов из разных областей знаний, включая математику, гуманитарные науки, естественные науки и древние языки. Каждый вопрос имел один чёткий ответ и был проверен на ведущих ИИ-системах — если какая-либо модель могла правильно ответить, вопрос исключался из финального экзамена. Это гарантировало, что тест останется за пределами возможностей современных ИИ.

Создание HLE подчёркивает необходимость новых эталонов для оценки ИИ, поскольку старые тесты больше не отражают реальные возможности систем. Экзамен не предназначен для демонстрации превосходства человека, а служит инструментом для понимания сильных и слабых сторон ИИ, что поможет в разработке более безопасных и надёжных технологий, а также напомнит о ценности человеческой экспертизы.

Ключевые выводы

Провал передовых ИИ на сложном тесте

Даже самые современные модели ИИ (GPT-4o, Claude 3.5 Sonnet) показали крайне низкие результаты — от 2,7% до 50% правильных ответов на экзамене из 2500 вопросов

Коллективная разработка экспертов

Тест создан международной группой из почти 1000 специалистов разных областей (историки, физики, лингвисты, медики), что обеспечило его междисциплинарную сложность

Методология исключения решаемых вопросов

Любой вопрос, на который могла правильно ответить хотя бы одна ИИ-система, удалялся из финального экзамена, гарантируя его недоступность для современных технологий

Необходимость новых эталонов оценки

Традиционные тесты для ИИ устарели и не отражают реальных возможностей систем, что создаёт риски неверной интерпретации их способностей пользователями и разработчиками

Текст сгенерирован с использованием ИИ

Искусственный интеллект, Междисциплинарные исследования, Тестирование ИИ, Последний экзамен человечества, Бенчмарки, Экспертные знания

Ученые создали самый сложный тест для ИИ, и результаты удивительны

Короткое резюме

Рекомендации по теме

Комментарии

Лента

Ученые создали самый сложный тест для ИИ, и результаты удивительны

Короткое резюме

Рекомендации по теме

Комментарии

Лента.css-1kwqo06{position:absolute;height:2px;bottom:0;width:100%;-webkit-transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;background-color:#282c6b;}

Лента