Новость

00:00
Новости науки
Новости науки
...
Новости
03:01, 18 Мар

Исследование показывает, что ChatGPT ошибается в науке чаще, чем вы думаете

Новое исследование выявило скромные способности ChatGPT к рассуждению и тревожную непоследовательность в ответах на одни и те же научные вопросы

Study finds ChatGPT gets science wrong more often than you think | ScienceDaily
sciencedaily.com
sciencedaily.com

Короткое резюме

Исследование Университета штата Вашингтон показало, что ChatGPT демонстрирует лишь умеренную точность и критическую непоследовательность при оценке истинности научных гипотез. После поправки на случайное угадывание его эффективность оказалась лишь на 60% выше вероятности, что ставит под сомнение его надежность для сложных рассуждений.

Ученые протестировали ChatGPT-3.5 и ChatGPT-5 mini на более чем 700 гипотезах из бизнес-журналов, задавая каждый вопрос по 10 раз. ИИ правильно определял ложные утверждения лишь в 16,4% случаев, а его ответы были последовательными только в 73% попыток, часто меняясь с «верно» на «неверно» при идентичных запросах. Это указывает на отсутствие глубокого концептуального понимания, несмотря на беглость языка.

Результаты, опубликованные в Rutgers Business Review, подчеркивают необходимость осторожности при использовании ИИ для важных решений. Исследователи рекомендуют бизнес-лидерам проверять сгенерированную информацию и относиться к ней скептически, отмечая, что искусственный общий интеллект, способный по-настоящему «мыслить», все еще далек от реальности.

Ключевые выводы
Низкая эффективность после поправки на случайность

После учета случайного угадывания (50% вероятность) эффективность ChatGPT составила лишь около 60% выше шанса, что соответствует низкому уровню надежности

Критическая непоследовательность ответов

При 10 идентичных запросах ChatGPT давал последовательные ответы только в ~73% случаев, часто меняя ответ с «верно» на «неверно» и обратно

Слабость в идентификации ложных утверждений

ИИ правильно определял ложные научные гипотезы лишь в 16,4% случаев, что является ключевым недостатком

Отсутствие прогресса между версиями

Производительность оставалась схожей между ChatGPT-3.5 (2024) и обновленным ChatGPT-5 mini (2025), указывая на сохраняющиеся фундаментальные ограничения

Текст сгенерирован с использованием ИИ

искусственный интеллект, ChatGPT, научные гипотезы, точность ИИ, непоследовательность, оценка достоверности
1

Рекомендации по теме

Комментарии

Логотип "Голос Науки"
Главная
Поддержать проект
Разделы
Быстрый доступ
  • Интервью автора
  • Видеоаннотации
Спонсор
* не является рекламой
Презентация
Информация

    тел.: 8 (800) 350 17-24email: office@golos-nauki.ru
    Регистрация
    Новости наукиЛента новостей
    Другие новости