Анафорически аннотированный корпус
Корпус состоит из 17 текстов, взятых из Библиотеки Мошкова, и 34 текстов - из Синтаксически размеченного корпуса русского языка (СинТагРус) и содержит в общей сложности 910 анафорических пар. В составе корпуса тексты трех основных типов:
- русская и зарубежная проза;
- научно-популярные и общественно-политические статьи из журналов;
- тексты новостных лент, опубликованные в сети Интернет.
Схема разметки
Размечалось каждое местоимение, для которого в тексте существует антецедент. В качестве антецедента выбиралась ближайшая именная группа, предшествующая антецеденту, или местоимение, для которого уже найден антецедент. В случае, если для местоимения множественного числа антецедентом служили несколько именных групп единственого или множественного числа, каждая из именных групп добавлялась в связь с анафором.
Условия получения корпуса:
Корпус можно получить, обратившись по почте