Большие языковые модели для диагностики болезней всё ещё «ненадёжны»

Исследование, опубликованное в Nature Medicine, показало, что большие языковые модели (LLM) пока не помогают людям принимать более точные медицинские решения в реальных условиях

medical.sciencenet

medical.sciencenet.cn

Short Summary

Новое исследование, опубликованное в журнале Nature Medicine, пришло к выводу, что большие языковые модели (LLM), такие как GPT-4o, пока не могут эффективно помогать обычным людям в оценке симптомов и выборе правильных действий в медицинских ситуациях, несмотря на их высокие результаты в контролируемых тестах.

Учёные из Оксфордского университета провели эксперимент с участием 1298 человек, которым было предложено оценить 10 различных медицинских сценариев с помощью LLM или обычных ресурсов, таких как поисковики. Хотя сами модели в изоляции правильно определяли заболевание в 94,9 % случаев, при взаимодействии с реальными людьми точность распознавания падала ниже 34,5 %. Исследователи выявили две основные проблемы: пользователи часто предоставляли моделям неполную или неточную информацию, а LLM, в свою очередь, иногда генерировали вводящие в заблуждение или ошибочные ответы.

Авторы работы делают вывод, что нынешнее поколение LLM ещё не готово для практического применения в помощи пациентам. Ключевая проблема заключается в том, что взаимодействие реального человека с моделью порождает ошибки, которые невозможно предсказать с помощью стандартных бенчмарков и симуляций, что ставит под сомнение их немедленное внедрение в качестве инструмента для первичной медицинской оценки.

Key Takeaways

Низкая эффективность в реальных условиях

Точность LLM при взаимодействии с людьми упала с 94,9 % до менее 34,5 % в определении болезни и до менее 44,2 % в выборе правильного действия

Проблема взаимодействия «человек-ИИ»

Основные сбои происходят на этапе коммуникации: пользователи дают неполные данные, а модели выдают ошибочные ответы

Несоответствие бенчмаркам

Высокие результаты LLM в контролируемых тестах (например, на экзаменах для врачей) не гарантируют их эффективности в реальных сценариях

Отсутствие преимущества перед поиском

Использование LLM не привело к статистически значимому улучшению результатов по сравнению с контрольной группой, использовавшей обычные интернет-поисковики

Text generated using AI

Медицинская диагностика, Большие языковые модели (LLM), Искусственный интеллект в здравоохранении, Исследование Nature Medicine, Взаимодействие человек-ИИ, Оценка симптомов

Большие языковые модели для диагностики болезней всё ещё «ненадёжны»

Short Summary

Recommendations on the topic

Comments

Feed

Большие языковые модели для диагностики болезней всё ещё «ненадёжны»

Short Summary

Recommendations on the topic

Comments

Feed.css-1kwqo06{position:absolute;height:2px;bottom:0;width:100%;-webkit-transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;transition:all 300ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;background-color:#282c6b;}

Feed