ИИ обнаруживает рак, но также «читает», кто вы есть
Исследование показало, что ИИ-модели для диагностики рака по патологическим срезам могут неявно определять демографические данные пациентов, что ведет к смещенным результатам для разных групп; разработан метод FAIR-Path, значительно снижающий эту предвзятость
Short Summary
Исследователи из Гарвардской медицинской школы обнаружили, что системы искусственного интеллекта, обучаемые для диагностики рака по патологическим срезам тканей, способны неявно извлекать информацию о демографии пациентов (раса, пол, возраст) и использовать её при постановке диагноза, что приводит к систематическим ошибкам для определённых групп. Оценка четырёх широко используемых моделей показала, что их точность варьировалась в зависимости от демографических характеристик примерно в 29 % диагностических задач, например, при дифференциации подтипов рака лёгких у афроамериканцев и мужчин.
Учёные выделили три основные причины предвзятости: 1) несбалансированность обучающих данных (недостаточная представленность некоторых групп); 2) различия в заболеваемости раком между популяциями, что делает модели более точными для групп с высокой распространённостью конкретного типа рака; 3) способность ИИ выявлять тонкие молекулярные различия, связанные с демографией (например, частоту определённых мутаций), и использовать их как «короткий путь» для классификации, что ухудшает работу в других популяциях.
Для решения проблемы был разработан фреймворк FAIR-Path, основанный на контрастивном обучении, который перестраивает обучение моделей так, чтобы они больше фокусировались на различиях между типами рака и меньше — на демографических сигналах. Его применение позволило снизить диагностические диспропорции примерно на 88 %. Это демонстрирует, что существенное уменьшение смещений возможно без необходимости в идеально сбалансированных наборах данных.
ИИ определяет демографию по срезам тканей
Патологические ИИ-модели способны неявно извлекать информацию о расе, поле и возрасте пациента непосредственно из изображений тканей, что ранее считалось невозможным для человека-патолога
Систематическая предвзятость в диагностике
Точность моделей существенно варьировалась для разных демографических групп; например, они хуже различали подтипы рака лёгких у афроамериканцев и мужчин, а также подтипы рака груди у молодых пациентов
Три глубинных причины смещения
Предвзятость обусловлена не только несбалансированностью данных, но и различиями в заболеваемости между популяциями, а также способностью ИИ использовать молекулярные маркеры, коррелирующие с демографией, в качестве «коротких путей» для классификации
Эффективный метод снижения предвзятости
Фреймворк FAIR-Path, основанный на контрастивном обучении, позволил уменьшить диагностические диспропорции между группами примерно на 88 %, демонстрируя возможность создания более справедливых моделей без полной перестройки обучающих наборов
Text generated using AI


