Дискурсивный анализ текстов на русском языке
Начало проекта: 2015 год.
Как известно, качество решения таких задач компьютерной лингвистики, как машинный перевод, автоматическое реферирование текстов, определение связности текста, все еще не достигло желаемого уровня. Поэтому в последнее время многие исследователи стали обращаться к изучению новых аспектов текста. Стала очевидной, например, необходимость исследования не только того, как слова строятся в предложения, но и как предложения выстраиваются в единый текст, т.е. структуры всего текста. Этой проблеме посвящен дискурсивный анализ текста, которому среди зарубежных ученых уделяется все больше внимания. В то же время в России почти не проводится исследований в этой области.
Настоящий проект направлен на адаптацию для русского языка Теории риторических структур (ТРС) – одного из самых популярных подходов к дискурсу. В рамках данной теории текст представляется в виде древовидной иерархической структуры, элементарные единицы которой объединены логическими отношениями в более крупные единицы, те в свою очередь связаны такими же отношениями в еще более крупные и так далее.
Также в рамках проекта создается русскоязычный дискурсивный корпус, на основе которого будут исследоваться формальные, функциональные и семантические принципы выражения конкретных дискурсивных отношений в языке.
Результаты проекта
Исследована возможность адаптации Теории риторических структур для русского языка.
Многочисленные эксперименты в области применения дискурсивного анализа свидетельствуют о его универсальности и возможности применения к самым разным языкам. На сегодняшний день существуют дискурсивные корпуса для английского, испанского, немецкого, чешского, греческого, китайского и других языков.
Модифицирован список отношений, которыми могут быть связаны неделимые дискурсивные единицы (финитные клаузы, деепричастные обороты, некоторые причастные обороты и т.д.) в русском языке. Разработано руководство по разметке текстов, в котором зафиксировано каждое отношение с подробным описанием его значения, семантической составляющей ядерной компоненты и сателлита, а также конкретными примерами. Также в данном руководстве описаны принципы выделения элементарных дискурсивных единиц.
Идет разметка корпуса СинТагРус. На данный момент размечено 10 текстов, что составляет 1200 элементарных дискурсивных единиц. Параллельно на базе данного корпуса исследуются лексические маркеры дискурсивных отношений, одни из которых имеют однозначную корреляцию с определенным отношением, другие – менее явную.
Публикации по проекту
- Кобозева М.В. Принципы риторической разметки текстов на русском языке // Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва: РУДН, 2016. – с.153-156.
- Ананьева М.И., Кобозева М.В. Дискурсивный анализ в задачах обработки естественного языка // Конференция «Информатика, управление и системный анализ», ИУСА, 2016, в печати.
- Ананьева М.И., Кобозева М.В. Разработка корпуса текстов на русском языке с разметкой на основе Теории риторических структур // Труды Международного семинара Диалог. – 2016, в печати.