Аннотированный корпус клинических текстов
Корпус был создан совместно ИСА РАН и
ФГБНУ "Научный центр детского здоровья" (НЦЗД).
Корпус содержит медицинские истории более 60 пациентов НЦЗД с аллергическими и пульмонологическими расстройствами и заболеваниями,
включая выписные эпикризы из истории болезни, заключения радиологических, эхокардиографических и ультразвуковых исследований, а
также назначения и рекомендации различных врачей. Все документы в корпусе обезличены: удалены имена и изменены даты.
Схема разметки частично схожа со схемой, представленной в CLEF eHealth 2014 Task 2 и включает такие аннотации как заболевания, симптомы, тяжесть заболевания, течение болезни, назначения, медикаменты, части тела, а так же различные свойства аннотаций и отношения между ними. Подробнее ознакомиться со схемой разметки можно по ссылке.
Тексты были размечены экспертами из НЦЗД. Разметка проводилась при помощи инструмента размети
Brat .
Пример размеченного текста приведен на рисунке.
На данный момент корпус состоит из 112 полных текстов и почти 45 000 токенов. Размечено 7600 сущностей и более 4000 свойств и связей.
Условия получения корпуса:
Корпус можно получить, обратившись по почте
Исследование поддержано грантом 13-04-12062 Российского фонда фундаментальных исследований