News

00:00
Новости науки
Новости науки
...
News
11:34, 13 Mar

Ученые создали самый сложный тест для ИИ, и результаты удивительны

Международная группа исследователей разработала экзамен из 2500 вопросов, который современные ИИ-системы не могут пройти, выявив значительный разрыв между их возможностями и экспертными знаниями человека

Scientists built the hardest AI test ever and the results are surprising | ScienceDaily
sciencedaily.com
sciencedaily.com

Short Summary

Исследователи создали "Последний экзамен человечества" (HLE) — тест из 2500 сложных вопросов по узкоспециализированным темам, который современные передовые ИИ-системы не могут пройти успешно. Даже самые мощные модели, такие как GPT-4o и Claude 3.5 Sonnet, показывают результаты в диапазоне от 2,7% до 50% правильных ответов, что демонстрирует сохраняющийся значительный разрыв между ИИ и человеческим интеллектом.

Тест был разработан почти 1000 экспертов из разных областей знаний, включая математику, гуманитарные науки, естественные науки и древние языки. Каждый вопрос имел один чёткий ответ и был проверен на ведущих ИИ-системах — если какая-либо модель могла правильно ответить, вопрос исключался из финального экзамена. Это гарантировало, что тест останется за пределами возможностей современных ИИ.

Создание HLE подчёркивает необходимость новых эталонов для оценки ИИ, поскольку старые тесты больше не отражают реальные возможности систем. Экзамен не предназначен для демонстрации превосходства человека, а служит инструментом для понимания сильных и слабых сторон ИИ, что поможет в разработке более безопасных и надёжных технологий, а также напомнит о ценности человеческой экспертизы.

Key Takeaways
Провал передовых ИИ на сложном тесте

Даже самые современные модели ИИ (GPT-4o, Claude 3.5 Sonnet) показали крайне низкие результаты — от 2,7% до 50% правильных ответов на экзамене из 2500 вопросов

Коллективная разработка экспертов

Тест создан международной группой из почти 1000 специалистов разных областей (историки, физики, лингвисты, медики), что обеспечило его междисциплинарную сложность

Методология исключения решаемых вопросов

Любой вопрос, на который могла правильно ответить хотя бы одна ИИ-система, удалялся из финального экзамена, гарантируя его недоступность для современных технологий

Необходимость новых эталонов оценки

Традиционные тесты для ИИ устарели и не отражают реальных возможностей систем, что создаёт риски неверной интерпретации их способностей пользователями и разработчиками

Text generated using AI

Искусственный интеллект, Междисциплинарные исследования, Тестирование ИИ, Последний экзамен человечества, Бенчмарки, Экспертные знания
1

Recommendations on the topic

Comments

Golos Nauki Logo
Home page
Support Project
Sections
Быстрый доступ
  • Author's interview
  • Video Abstracts
Sponsor
* is not an advertisement
Presentation
Information

    Phone: 8 (800) 350 17-24email: office@golos-nauki.ru
    Sign Up
    Новости наукиNews Feed
    Other News