Исследование показывает, что ChatGPT ошибается в науке чаще, чем вы думаете

Новое исследование выявило скромные способности ChatGPT к рассуждению и тревожную непоследовательность в ответах на одни и те же научные вопросы

Study finds ChatGPT gets science wrong more often than you think | ScienceDaily

sciencedaily.com

Короткое резюме

Исследование Университета штата Вашингтон показало, что ChatGPT демонстрирует лишь умеренную точность и критическую непоследовательность при оценке истинности научных гипотез. После поправки на случайное угадывание его эффективность оказалась лишь на 60% выше вероятности, что ставит под сомнение его надежность для сложных рассуждений.

Ученые протестировали ChatGPT-3.5 и ChatGPT-5 mini на более чем 700 гипотезах из бизнес-журналов, задавая каждый вопрос по 10 раз. ИИ правильно определял ложные утверждения лишь в 16,4% случаев, а его ответы были последовательными только в 73% попыток, часто меняясь с «верно» на «неверно» при идентичных запросах. Это указывает на отсутствие глубокого концептуального понимания, несмотря на беглость языка.

Результаты, опубликованные в Rutgers Business Review, подчеркивают необходимость осторожности при использовании ИИ для важных решений. Исследователи рекомендуют бизнес-лидерам проверять сгенерированную информацию и относиться к ней скептически, отмечая, что искусственный общий интеллект, способный по-настоящему «мыслить», все еще далек от реальности.

Ключевые выводы

Низкая эффективность после поправки на случайность

После учета случайного угадывания (50% вероятность) эффективность ChatGPT составила лишь около 60% выше шанса, что соответствует низкому уровню надежности

Критическая непоследовательность ответов

При 10 идентичных запросах ChatGPT давал последовательные ответы только в ~73% случаев, часто меняя ответ с «верно» на «неверно» и обратно

Слабость в идентификации ложных утверждений

ИИ правильно определял ложные научные гипотезы лишь в 16,4% случаев, что является ключевым недостатком

Отсутствие прогресса между версиями

Производительность оставалась схожей между ChatGPT-3.5 (2024) и обновленным ChatGPT-5 mini (2025), указывая на сохраняющиеся фундаментальные ограничения

Текст сгенерирован с использованием ИИ

искусственный интеллект, ChatGPT, научные гипотезы, точность ИИ, непоследовательность, оценка достоверности

Исследование показывает, что ChatGPT ошибается в науке чаще, чем вы думаете

Короткое резюме

Рекомендации по теме

Комментарии

Лента

Исследование показывает, что ChatGPT ошибается в науке чаще, чем вы думаете

Короткое резюме

Рекомендации по теме

Комментарии

Лента.css-1kwqo06{position:absolute;height:2px;bottom:0;width:100%;-webkit-transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;background-color:#282c6b;}

Лента