Исследование показывает, что ChatGPT ошибается в науке чаще, чем вы думаете
Новое исследование выявило скромные способности ChatGPT к рассуждению и тревожную непоследовательность в ответах на одни и те же научные вопросы
Короткое резюме
Исследование Университета штата Вашингтон показало, что ChatGPT демонстрирует лишь умеренную точность и критическую непоследовательность при оценке истинности научных гипотез. После поправки на случайное угадывание его эффективность оказалась лишь на 60% выше вероятности, что ставит под сомнение его надежность для сложных рассуждений.
Ученые протестировали ChatGPT-3.5 и ChatGPT-5 mini на более чем 700 гипотезах из бизнес-журналов, задавая каждый вопрос по 10 раз. ИИ правильно определял ложные утверждения лишь в 16,4% случаев, а его ответы были последовательными только в 73% попыток, часто меняясь с «верно» на «неверно» при идентичных запросах. Это указывает на отсутствие глубокого концептуального понимания, несмотря на беглость языка.
Результаты, опубликованные в Rutgers Business Review, подчеркивают необходимость осторожности при использовании ИИ для важных решений. Исследователи рекомендуют бизнес-лидерам проверять сгенерированную информацию и относиться к ней скептически, отмечая, что искусственный общий интеллект, способный по-настоящему «мыслить», все еще далек от реальности.
Низкая эффективность после поправки на случайность
После учета случайного угадывания (50% вероятность) эффективность ChatGPT составила лишь около 60% выше шанса, что соответствует низкому уровню надежности
Критическая непоследовательность ответов
При 10 идентичных запросах ChatGPT давал последовательные ответы только в ~73% случаев, часто меняя ответ с «верно» на «неверно» и обратно
Слабость в идентификации ложных утверждений
ИИ правильно определял ложные научные гипотезы лишь в 16,4% случаев, что является ключевым недостатком
Отсутствие прогресса между версиями
Производительность оставалась схожей между ChatGPT-3.5 (2024) и обновленным ChatGPT-5 mini (2025), указывая на сохраняющиеся фундаментальные ограничения
Текст сгенерирован с использованием ИИ


