Извлечение информации из медицинских текстов
Начало проекта: 2013 год.
Медицинские организации генерируют огромный объем неструктурированной информации, которая содержится в текстах на естественном языке (ЕЯ). Большинство историй болезни, анамнезов, эпикризов, а также отчетов о проведении клинических мероприятий: операций, анализов и обследований, таких как рентгеновские, ультразвуковые исследования, записываются в виде текстов на ЕЯ. Эти тексты содержат много полезной информации, которую необходимо извлечь и структурировать. В области обработки текстов на ЕЯ выделилось отдельное актуальное быстроразвивающееся научное направление, которое занимается проблемой анализа клинических текстов. В рамках этого направления разрабатываются специализированные системы, решающие задачи извлечения информации из клинических текстов и ее структурирования. Информация, полученная из текстов, может существенно обогатить базы знаний и данных, на основе которых работают медицинские системы поддержки принятия решений, что, в конечном счете, может повысить их эффективность. Большинство существующих методов и систем анализа медицинских текстов работают только с английским языком, системы анализа медицинских текстов на русском языке отсутствуют.
Результаты проекта
Разработаны следующие методы:
- метод поиска медицинских терминов в тексте по набору кодификаторов (упоминания заболеваний, симптомов, лекарств, медицинских процедур и др.);
- метод распознавания в тексте конструкций, указывающих на отсутствие заболевания у пациента;
- метод распознавания в тексте конструкций, указывающих на то, что заболевание относится не к пациенту (а, например, к его родственнику);
- метод распознавания конструкций, указывающих на тяжесть протекания заболевания, а также метод нормализации этих конструкций;
- метод распознавания конструкций, указывающих на течение заболевания, а также метод нормализации этих конструкций;
- метод сопоставления заболеваний и областей тела, к которым относятся заболевания.
Создан корпус медицинских текстов, содержащий 50 деперсонализованных историй болезни пациентов педиатрического центра. В текстах корпуса размечены следующие сущности: заболевания / нарушения, области тела, медицинские процедуры, лекарственные препараты, симптомы и др. Ознакомиться подробнее с корпусом можно здесь.
Разработанные методы будут использованы в комплексной системе интеллектуальной обработки данных.
Выполнены предварительные экспериментальные исследования разработанного метода на созданном корпусе.
Публикации по проекту
- Shelmanov A. O., Smirnov I. V., Vishneva E. A. Information extraction from clinical texts in Russian // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue" (2015). Issue 14 (21). – 2015. – V1. – pp. 560-572. (читать)
- А.А.Баранов, Л.С. Намазова-Баранова, И.В. Смирнов, Д.А. Девяткин, А.О. Шелманов, Е.А. Вишнева, Е.В. Антонова, В.И. Смирнов, А.В. Латышев. Методы и средства комплексного интеллектуального анализа медицинских данных // Труды ИСА РАН. – 2015 – No2. – С. 81-93. (читать)