Разрешение анафоры
Начало проекта: 2014 год.
Разрешение анафоры является важной задачей искусственного интеллекта в области обработки естественного языка, направленной на реализацию полноценной системы понимания текста. Цель этой задачи заключается в совмещении семантических сетей отдельных предложений в общую семантическую сеть текста, в которой установлены связи между объектами, упоминаемыми на протяжении целого дискурса.
На первом этапе исследования были изучены два вопроса:
- Какой метод разрешения местоименной анафоры эффективней: метод машинного обучения или метод, основанный на правилах?
- Как влияют на качество разрешения анафоры семантические признаки?
Исследовалась только местоименная анафора. Сравнивались статистический метод обучения, основанный на машине опорных векторов, и индуктивный метод, основанный на построении деревьев решений. В качестве признаков обучения использовались морфологические, синтаксические и семантические признаки, получаемые с помощью лингвистического анализатора ИСА РАН. В качестве обучающих и проверочных данных использовались три набора данных: собственный размеченный корпус (подробнее), обучающий и тестовый корпуса, предоставленные организаторами Форума по оценке систем лингвистического анализа текстов, проводимого в рамках конференции Диалог-2014. Для определения значимости групп признаков проводилось несколько экспериментов по обучению с различными наборами признаков. Первый набор признаков включал морфологические и синтаксические признаки, во втором наборе к ним добавлялись семантические признаки.
Задача разрешения местоименной анафоры ставилась как задача распознавания правильных пар «анафор-антецедент» на основе анализа прецедентов. Множество прецедентов (обучающих примеров) строилось по размеченному корпусу. Поиск гипотетических антецедентов ограничивался определенным количеством слов, которое определялось эмпирически в ходе экспериментов.
Результаты экспериментов
В результате предварительных экспериментов было выявлено, что одним из наиболее важных критериев, влияющих на полноту и качество автоматизированного разрешения анафоры, является расстояние в словах, ограничивающее зону поиска гипотетического антецедента. Для каждого корпуса было построено распределение количества анафорических пар по удаленности антецедента от анафора в словах. На основе данных распределений были вычислены расстояния, которые покрывают 90% пар. Поиск гипотетических антецедентов в соответствующих корпусах выполнялся в пределах полученных значений расстояний как при обучении, так и при проверке качества методов.
Результаты экспериментов показали, что оба используемых метода обучения выдают приемлемые результаты. Метод опорных векторов во всех экспериментах, за исключением двух, показал по сравнению с деревьями решений результаты лучшие на величину от 0.1% до 13.2% точности. Обучение с набором семантических признаков для всех методов во всех экспериментах показало повышение точности обучения по сравнению с набором без семантических признаков на величину от 0.1% до 6.6%. Наилучший результат точности разрешения анафоры в 61% был достигнут методом SVM на наборе с семантическими признаками.
Исследование планируется продолжить и в дальнейшем оно будет направлено на расширение пространства признаков и совершенствование метода распознавания потенциальных антецедентов.
Публикации по проекту
- Kamenskaya M.A, Khramoin I.V., Smirnov I.V. Data-driven methods for anaphora resolution of russian texts //Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue” (2014). Issue 13 (20). – 2014. – pp. 134-136. (читать)
- Каменская М.А., Храмоин И.В. Влияние семантических признаков на качество разрешения местоименной анафоры //Труды III Всероссийской научной конференции молодых ученых с международным участием «Теория и практика системного анализа». – 2014. – Том II. – C. 157-163.