Анафорически аннотированный корпус

Корпус состоит из 17 текстов, взятых из Библиотеки Мошкова, и 34 текстов - из Синтаксически размеченного корпуса русского языка (СинТагРус) и содержит в общей сложности 910 анафорических пар. В составе корпуса тексты трех основных типов:

  1. русская и зарубежная проза;
  2. научно-популярные и общественно-политические статьи из журналов;
  3. тексты новостных лент, опубликованные в сети Интернет.
Размечалась только местоименная анафора, выделялись личные местоимения 3-го лица, притяжательные, указательные и относительные местоимения.

Схема разметки

Размечалось каждое местоимение, для которого в тексте существует антецедент. В качестве антецедента выбиралась ближайшая именная группа, предшествующая антецеденту, или местоимение, для которого уже найден антецедент. В случае, если для местоимения множественного числа антецедентом служили несколько именных групп единственого или множественного числа, каждая из именных групп добавлялась в связь с анафором.

Условия получения корпуса:

Корпус можно получить, обратившись по почте nlp@isa.ru. Для получения корпуса требуется принять лицензионное соглашение, которое будет выслано Вам в ответном письме.