Аннотированный корпус клинических текстов

Корпус был создан совместно Институтом системного анализа ФИЦ ИУ РАН и ФГБНУ "Научный центр здоровья детей" (НЦЗД).
Корпус содержит медицинские истории более 60 пациентов НЦЗД с аллергическими и пульмонологическими расстройствами и заболеваниями, включая выписные эпикризы из истории болезни, заключения радиологических, эхокардиографических и ультразвуковых исследований, а также назначения и рекомендации различных врачей. Все документы в корпусе обезличены: удалены имена и изменены даты.

Схема разметки частично схожа со схемой, представленной в CLEF eHealth 2014 Task 2 и включает такие аннотации как заболевания, симптомы, тяжесть заболевания, течение болезни, назначения, медикаменты, части тела, а так же различные свойства аннотаций и отношения между ними. Подробнее ознакомиться со схемой разметки можно в руководстве.

Тексты были размечены экспертами из НЦЗД. Разметка проводилась при помощи инструмента разметки Brat .
Пример размеченного текста приведен на рисунке.

изображение

На данный момент корпус состоит из 112 полных текстов и почти 45 000 токенов. Размечено 7600 сущностей и более 4000 свойств и связей.

Условия получения корпуса:

Корпус можно получить, обратившись по почте nlp@isa.ru.

Исследование поддержано грантом 13-04-12062 Российского фонда фундаментальных исследований