Синтактико-семантический анализ

Начало проекта: 2012 год.

Проект направлен на создание семантико-синтаксического анализатора, объединяющего фазы синтаксического и семантического анализа текстов на естественном языке в одной процедуре.

Современные исследования естественного языка подвели к идее о неразрывной связи синтаксиса и семантики, в то же время в существующих лингвистических анализаторах эти две фазы принципиально разделены, что противоречит естественному строю языка. В проекте исследовано взаимодействие синтаксиса и семантики и решена задача их интеграции в рамках единого семантико-синтаксического анализатора.

Результаты проекта

Исследованы взаимодействие синтаксиса и семантики и возможность интеграции семантического и синтаксического анализа в рамках единого семантико-синтаксического анализатора.

Разработан метод автоматического семантико-синтаксического анализа текстов на естественном языке, выполняющий синтаксический и семантический анализ текстов на основе единого подхода, в одной процедуре с использованием единой структуры данных.

Разработаны экспериментальные программные средства автоматического семантико-синтаксического анализа текста на естественном языке, реализующие разработанный метод. Основным компонентом программных средств является анализатор MaltParser. Это обучаемый анализатор, он принимает на вход текст с разметкой, на выходе получается обученная модель, которая применяется для анализа новых текстов. Получаемая модель отделена от алгоритма анализа, её можно использовать с другими реализациями анализатора. При обучении на вход анализатору подаётся текст с синтаксической и семантической разметкой, при этом семантическая разметка является разновидностью синтаксической разметки, т.е. можно говорить о семантико-синтаксической разметке текста. Обученная модель позволяет выполнять семантический и синтаксический анализ текстов за один проход.

Выполнены экспериментальные исследования разработанного метода автоматического семантико-синтаксического анализа текстов. Для экспериментальной проверки разработанного метода семантико-синтаксического анализа текстов использовался Синтаксически размеченный корпус русского языка СинТагРус, разработанный в ИППИ РАН. Данный корпус содержит морфологическую и синтаксическую разметку со снятой многозначностью. В корпус СинТагРус с помощью существующего словарного семантического анализатора была добавлена семантическая разметка, которая указывает тип семантико-синтаксической связи (семантическую роль) между предикатными словами и синтаксемами. Таким образом были получены обучающие данные для анализатора. Для оценки качества работы разработанного метода семантико-синтаксического анализа был создан небольшой подкорпус СинТагРус с семантической разметкой, выполненной вручную экспертом лингвистом. Данный проверочный корпус («золотой стандарт») содержит 27 текстов, 1730 предложений, 3875 слов с семантическими пометами.

Эксперименты показали работоспособность подхода, объединяющего синтаксический и семантический виды анализа. Максимальная аккуратность синтаксического анализа составила 88.2%, что соответствует уровню качества известных синтаксических анализаторов. Максимальная точность установления семантических значений составила 86.8% при полноте 60.1%, F-мера 71.0%, что так же соответствует уровню качества известных SRL анализаторов. Эксперименты показали, что F-мера установления семантических значений при совместном семантико-синтаксическом анализе примерно на 1% выше аналогичного показателя при последовательном и раздельном синтаксическом и семантическом анализе, что является значимым результатом для данной задачи.

Публикации по проекту

  1. И.В. Смирнов, А.О. Шелманов. Семантико-синтаксический анализ естественных языков. Часть I. Обзор методов синтаксического и семантического анализа текстов // Журнал "Искусственный интеллект и принятие решений". М.: ИСА РАН – 2013. – No1. – С. 41-54. (читать)
  2. И.В. Смирнов, А.О. Шелманов, Е.С. Кузнецова, И.В. Храмоин. Семантико-синтаксический анализ естественных языков. Часть II. Метод семантико-синтаксического анализа текстов // Журнал "Искусственный интеллект и принятие решений". М.: ИСА РАН – 2014. – No1. – С. 11-24. (читать)
  3. Shelmanov A. O., Smirnov I. V. Methods for Semantic Role Labeling of Russian Texts // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue" (2014). Issue 13 (20) – 2014. – pp. 607-619. (читать)

Разработанный семантико-синтаксический анализатор используется в интеллектуальной поисково-аналитической машине Exactus.

Проект выполнен при поддержке РФФИ, проект No12-07-33068 «мол_а_вед»