Большие языковые модели для диагностики болезней всё ещё «ненадёжны»
Исследование, опубликованное в Nature Medicine, показало, что большие языковые модели (LLM) пока не помогают людям принимать более точные медицинские решения в реальных условиях
Short Summary
Новое исследование, опубликованное в журнале Nature Medicine, пришло к выводу, что большие языковые модели (LLM), такие как GPT-4o, пока не могут эффективно помогать обычным людям в оценке симптомов и выборе правильных действий в медицинских ситуациях, несмотря на их высокие результаты в контролируемых тестах.
Учёные из Оксфордского университета провели эксперимент с участием 1298 человек, которым было предложено оценить 10 различных медицинских сценариев с помощью LLM или обычных ресурсов, таких как поисковики. Хотя сами модели в изоляции правильно определяли заболевание в 94,9 % случаев, при взаимодействии с реальными людьми точность распознавания падала ниже 34,5 %. Исследователи выявили две основные проблемы: пользователи часто предоставляли моделям неполную или неточную информацию, а LLM, в свою очередь, иногда генерировали вводящие в заблуждение или ошибочные ответы.
Авторы работы делают вывод, что нынешнее поколение LLM ещё не готово для практического применения в помощи пациентам. Ключевая проблема заключается в том, что взаимодействие реального человека с моделью порождает ошибки, которые невозможно предсказать с помощью стандартных бенчмарков и симуляций, что ставит под сомнение их немедленное внедрение в качестве инструмента для первичной медицинской оценки.
Низкая эффективность в реальных условиях
Точность LLM при взаимодействии с людьми упала с 94,9 % до менее 34,5 % в определении болезни и до менее 44,2 % в выборе правильного действия
Проблема взаимодействия «человек-ИИ»
Основные сбои происходят на этапе коммуникации: пользователи дают неполные данные, а модели выдают ошибочные ответы
Несоответствие бенчмаркам
Высокие результаты LLM в контролируемых тестах (например, на экзаменах для врачей) не гарантируют их эффективности в реальных сценариях
Отсутствие преимущества перед поиском
Использование LLM не привело к статистически значимому улучшению результатов по сравнению с контрольной группой, использовавшей обычные интернет-поисковики
Text generated using AI

