Аннотированный корпус клинических текстов

Корпус был создан совместно ИСА РАН и ФГБНУ "Научный центр детского здоровья" (НЦЗД).
Корпус содержит медицинские истории более 60 пациентов НЦЗД с аллергическими и пульмонологическими расстройствами и заболеваниями, включая выписные эпикризы из истории болезни, заключения радиологических, эхокардиографических и ультразвуковых исследований, а также назначения и рекомендации различных врачей. Все документы в корпусе обезличены: удалены имена и изменены даты.

Схема разметки частично схожа со схемой, представленной в CLEF eHealth 2014 Task 2 и включает такие аннотации как заболевания, симптомы, тяжесть заболевания, течение болезни, назначения, медикаменты, части тела, а так же различные свойства аннотаций и отношения между ними. Подробнее ознакомиться со схемой разметки можно по ссылке.

Тексты были размечены экспертами из НЦЗД. Разметка проводилась при помощи инструмента размети Brat .
Пример размеченного текста приведен на рисунке.

изображение

На данный момент корпус состоит из 112 полных текстов и почти 45 000 токенов. Размечено 7600 сущностей и более 4000 свойств и связей.

Условия получения корпуса:

Корпус можно получить, обратившись по почте ivs@isa.ru. Для получения корпуса требуется принять лицензионное соглашение и получить Human subjects training certificate , поскольку корпус содержит медицинские данные реальных пациентов.


Исследование поддержано грантом 13-04-12062 Российского фонда фундаментальных исследований