Инструменты искусственного интеллекта (ИИ), обученные обнаруживать пневмонию на рентгеновских снимках грудной клетки, значительно снизили эффективность при тестировании на данных из внешних систем здравоохранения, согласно исследованию, проведенному в Медицинской школе Икана в Маунт и опубликованному в специальном выпуске PLOS. Медицина в области машинного обучения и здравоохранения. Эти результаты показывают, что искусственный интеллект в медицинской сфере должен быть тщательно протестирован на предмет эффективности в широком диапазоне групп населения; в противном случае модели глубокого обучения могут работать не так точно, как ожидалось.
По мере роста интереса к использованию структур компьютерных систем, называемых сверточными нейронными сетями (CNN), для анализа медицинских изображений и обеспечения компьютерной диагностики, недавние исследования показали, что классификация изображений AI не может быть обобщена на новые данные, а также обычно изображается.
Исследователи из Медицинской школы Икана на горе Синай оценили, как модели искусственного интеллекта идентифицировали пневмонию на 158 000 рентгеновских снимках грудной клетки в трех медицинских учреждениях: Национальном институте здравоохранения; Больница на горе Синай; и больница Университета Индианы. Исследователи решили изучить диагноз пневмонии на рентгеновских снимках грудной клетки из-за ее распространенности, клинического значения и распространенности в исследовательском сообществе.
В трех из пяти сравнений эффективность CNN в диагностике заболеваний с помощью рентгеновских лучей из больниц за пределами их собственной сети была значительно ниже, чем по рентгеновским снимкам из исходной системы здравоохранения. Тем не менее, CNN смогли обнаружить больничную систему, в которой рентгеновский снимок был получен с высокой степенью точности, и обманули их прогнозирующую задачу, основанную на распространенности пневмонии в учебном заведении. Исследователи обнаружили, что сложность использования моделей глубокого обучения в медицине заключается в том, что они используют огромное количество параметров, что затрудняет определение конкретных переменных, влияющих на прогнозы, таких как типы компьютерных томографов, используемых в больнице, и качество разрешения изображений.
"Наши результаты должны заставить задуматься тех, кто рассматривает возможность быстрого развертывания платформ искусственного интеллекта без тщательной оценки их эффективности в реальных клинических условиях, отражающих то, где они развертываются," говорит старший автор Эрик Оерманн, доктор медицины, инструктор по нейрохирургии в Медицинской школе Икана на горе Синай. "Модели глубокого обучения, обученные выполнять медицинскую диагностику, могут хорошо обобщаться, но это не может считаться само собой разумеющимся, поскольку популяции пациентов и методы визуализации значительно различаются в разных учреждениях."
"Если системы CNN будут использоваться для медицинской диагностики, они должны быть адаптированы для тщательного рассмотрения клинических вопросов, протестированы для различных реальных сценариев и тщательно оценены, чтобы определить, как они влияют на точный диагноз," говорит первый автор Джон Зеч, студент-медик в Медицинской школе Икана на горе Синай.
Это исследование основано на статьях, опубликованных ранее в этом году в журналах Radiology и Nature Medicine, которые заложили основу для применения компьютерного зрения и методов глубокого обучения, включая алгоритмы обработки естественного языка, для определения клинических концепций в радиологических отчетах для компьютерной томографии.