Извлечение информации из медицинских текстов

Начало проекта: 2013 год.

Медицинские организации генерируют огромный объем неструктурированной информации, которая содержится в текстах на естественном языке (ЕЯ). Большинство историй болезни, анамнезов, эпикризов, а также отчетов о проведении клинических мероприятий: операций, анализов и обследований, таких как рентгеновские, ультразвуковые исследования, записываются в виде текстов на ЕЯ. Эти тексты содержат много полезной информации, которую необходимо извлечь и структурировать. В области обработки текстов на ЕЯ выделилось отдельное актуальное быстроразвивающееся научное направление, которое занимается проблемой анализа клинических текстов. В рамках этого направления разрабатываются специализированные системы, решающие задачи извлечения информации из клинических текстов и ее структурирования. Информация, полученная из текстов, может существенно обогатить базы знаний и данных, на основе которых работают медицинские системы поддержки принятия решений, что, в конечном счете, может повысить их эффективность. Большинство существующих методов и систем анализа медицинских текстов работают только с английским языком, системы анализа медицинских текстов на русском языке отсутствуют.

Результаты проекта

Разработаны следующие методы:

  • метод поиска медицинских терминов в тексте по набору кодификаторов (упоминания заболеваний, симптомов, лекарств, медицинских процедур и др.);
  • метод распознавания в тексте конструкций, указывающих на отсутствие заболевания у пациента;
  • метод распознавания в тексте конструкций, указывающих на то, что заболевание относится не к пациенту (а, например, к его родственнику);
  • метод распознавания конструкций, указывающих на тяжесть протекания заболевания, а также метод нормализации этих конструкций;
  • метод распознавания конструкций, указывающих на течение заболевания, а также метод нормализации этих конструкций;
  • метод сопоставления заболеваний и областей тела, к которым относятся заболевания.

Создан корпус медицинских текстов, содержащий 50 деперсонализованных историй болезни пациентов педиатрического центра. В текстах корпуса размечены следующие сущности: заболевания / нарушения, области тела, медицинские процедуры, лекарственные препараты, симптомы и др. Ознакомиться подробнее с корпусом можно здесь.

Разработанные методы будут использованы в комплексной системе интеллектуальной обработки данных.

Выполнены предварительные экспериментальные исследования разработанного метода на созданном корпусе.

Публикации по проекту

  1. Shelmanov A. O., Smirnov I. V., Vishneva E. A. Information extraction from clinical texts in Russian // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue" (2015). Issue 14 (21). – 2015. – V1. – pp. 560-572. (читать)
  2. А.А.Баранов, Л.С. Намазова-Баранова, И.В. Смирнов, Д.А. Девяткин, А.О. Шелманов, Е.А. Вишнева, Е.В. Антонова, В.И. Смирнов, А.В. Латышев. Методы и средства комплексного интеллектуального анализа медицинских данных // Труды ИСА РАН. – 2015 – No2. – С. 81-93. (читать)
Проект выполнен при поддержке РФФИ, проект No13-04-12062 «офи_м»