News

00:00
Журнал медицинских наук - 医学科学报 (Онлайн-версия)
Журнал медицинских наук - 医学科学报 (Онла...
...
News
00:45, 11 Apr

Большие языковые модели для диагностики болезней всё ещё «ненадёжны»

Исследование, опубликованное в Nature Medicine, показало, что большие языковые модели (LLM) пока не помогают людям принимать более точные медицинские решения в реальных условиях

科学网—大模型诊病还不“靠谱”
medical.sciencenet
medical.sciencenet.cn

Short Summary

Новое исследование, опубликованное в журнале Nature Medicine, пришло к выводу, что большие языковые модели (LLM), такие как GPT-4o, пока не могут эффективно помогать обычным людям в оценке симптомов и выборе правильных действий в медицинских ситуациях, несмотря на их высокие результаты в контролируемых тестах.

Учёные из Оксфордского университета провели эксперимент с участием 1298 человек, которым было предложено оценить 10 различных медицинских сценариев с помощью LLM или обычных ресурсов, таких как поисковики. Хотя сами модели в изоляции правильно определяли заболевание в 94,9 % случаев, при взаимодействии с реальными людьми точность распознавания падала ниже 34,5 %. Исследователи выявили две основные проблемы: пользователи часто предоставляли моделям неполную или неточную информацию, а LLM, в свою очередь, иногда генерировали вводящие в заблуждение или ошибочные ответы.

Авторы работы делают вывод, что нынешнее поколение LLM ещё не готово для практического применения в помощи пациентам. Ключевая проблема заключается в том, что взаимодействие реального человека с моделью порождает ошибки, которые невозможно предсказать с помощью стандартных бенчмарков и симуляций, что ставит под сомнение их немедленное внедрение в качестве инструмента для первичной медицинской оценки.

Key Takeaways
Низкая эффективность в реальных условиях

Точность LLM при взаимодействии с людьми упала с 94,9 % до менее 34,5 % в определении болезни и до менее 44,2 % в выборе правильного действия

Проблема взаимодействия «человек-ИИ»

Основные сбои происходят на этапе коммуникации: пользователи дают неполные данные, а модели выдают ошибочные ответы

Несоответствие бенчмаркам

Высокие результаты LLM в контролируемых тестах (например, на экзаменах для врачей) не гарантируют их эффективности в реальных сценариях

Отсутствие преимущества перед поиском

Использование LLM не привело к статистически значимому улучшению результатов по сравнению с контрольной группой, использовавшей обычные интернет-поисковики

Text generated using AI

Медицинская диагностика, Большие языковые модели (LLM), Искусственный интеллект в здравоохранении, Исследование Nature Medicine, Взаимодействие человек-ИИ, Оценка симптомов
1

Recommendations on the topic

Comments

Golos Nauki Logo
Home page
Support Project
Sections
Быстрый доступ
  • Author's interview
  • Video Abstracts
Sponsor
* is not an advertisement
Presentation
Information

    Phone: 8 (800) 350 17-24email: office@golos-nauki.ru
    Sign Up
    Журнал медицинских наук - 医学科学报 (Онлайн-версия)News Feed
    Other News