Ученые создали самый сложный тест для ИИ, и результаты удивительны

Международная группа исследователей разработала экзамен из 2500 вопросов, который современные ИИ-системы не могут пройти, выявив значительный разрыв между их возможностями и экспертными знаниями человека

Scientists built the hardest AI test ever and the results are surprising | ScienceDaily

sciencedaily.com

Short Summary

Исследователи создали "Последний экзамен человечества" (HLE) — тест из 2500 сложных вопросов по узкоспециализированным темам, который современные передовые ИИ-системы не могут пройти успешно. Даже самые мощные модели, такие как GPT-4o и Claude 3.5 Sonnet, показывают результаты в диапазоне от 2,7% до 50% правильных ответов, что демонстрирует сохраняющийся значительный разрыв между ИИ и человеческим интеллектом.

Тест был разработан почти 1000 экспертов из разных областей знаний, включая математику, гуманитарные науки, естественные науки и древние языки. Каждый вопрос имел один чёткий ответ и был проверен на ведущих ИИ-системах — если какая-либо модель могла правильно ответить, вопрос исключался из финального экзамена. Это гарантировало, что тест останется за пределами возможностей современных ИИ.

Создание HLE подчёркивает необходимость новых эталонов для оценки ИИ, поскольку старые тесты больше не отражают реальные возможности систем. Экзамен не предназначен для демонстрации превосходства человека, а служит инструментом для понимания сильных и слабых сторон ИИ, что поможет в разработке более безопасных и надёжных технологий, а также напомнит о ценности человеческой экспертизы.

Key Takeaways

Провал передовых ИИ на сложном тесте

Даже самые современные модели ИИ (GPT-4o, Claude 3.5 Sonnet) показали крайне низкие результаты — от 2,7% до 50% правильных ответов на экзамене из 2500 вопросов

Коллективная разработка экспертов

Тест создан международной группой из почти 1000 специалистов разных областей (историки, физики, лингвисты, медики), что обеспечило его междисциплинарную сложность

Методология исключения решаемых вопросов

Любой вопрос, на который могла правильно ответить хотя бы одна ИИ-система, удалялся из финального экзамена, гарантируя его недоступность для современных технологий

Необходимость новых эталонов оценки

Традиционные тесты для ИИ устарели и не отражают реальных возможностей систем, что создаёт риски неверной интерпретации их способностей пользователями и разработчиками

Text generated using AI

Искусственный интеллект, Междисциплинарные исследования, Тестирование ИИ, Последний экзамен человечества, Бенчмарки, Экспертные знания

Ученые создали самый сложный тест для ИИ, и результаты удивительны

Short Summary

Recommendations on the topic

Comments

Feed

Ученые создали самый сложный тест для ИИ, и результаты удивительны

Short Summary

Recommendations on the topic

Comments

Feed.css-1kwqo06{position:absolute;height:2px;bottom:0;width:100%;-webkit-transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;background-color:#282c6b;}

Feed