Синтаксическая разметка

Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе (он же Синтаксический корпус НКРЯ), и в формате Универсальных зависимостей (Universal Dependencies, далее UD), используемом в Основном, Газетном и ряде других корпусов.

Оба формата предполагают представление синтаксической структуры предложения в виде дерева зависимостей, в котором каждая дуга (стрелка) идет из главного слова («хозяина») в зависимое слово («слугу») и помечена именем определенного синтаксического отношения. Каждое слово предложения, кроме одного (называемого вершиной предложения), зависит только от одного хозяина и только по одному из синтаксических отношений. Отношения связывают отдельные слова, а не словосочетания (за исключением специальных случаев, оговоренных для корпуса СинТагРус). В синтаксических группах (например, в сочиненной именной группе или придаточной клаузе) один из членов группы выступает в качестве представителя группы во внешних связях, объявляется вершиной группы, а остальные члены группы синтаксически зависят от него.

Схемы синтаксической разметки СинТагРус и UD различаются набором синтаксических отношений и принципами определения главного и зависимого элемента в конструкции. Например, в формате СинТагРус в предложной группе типа (В → лес) предлог является главным, а имя – зависимым, так как предлог определяет морфологическое оформление (падеж) имени и некоторые другие черты синтаксического поведения группы в целом. Формат UD предназначен для унифицированного представления конструкций в языках различного типологического строя, он упрощает выравнивание разметки в параллельных корпусах и, как следствие, поверхностному оформлению конструкций в конкретном языке уделяется меньше внимания. Предлог как грамматический показатель, согласно схеме UD, является зависимым от полнозначного слова (в← ЛЕС), с тем чтобы представление синтаксической структуры всего предложения в языках типа финского, где предложное значение часто выражается морфемой в составе имени, было минимально отлично от представления в языках типа русского, где аналогичное значение выражается “грамматическим словом”. Кроме того, такая схема оказывается более устойчива к “шуму” в реальных письменных и затранскрибированных текстах, где предлоги опускаются чаще, чем полнозначные слова.

Следующий рисунок иллюстрирует ключевые отличия синтаксического представления в формате  Универсальных зависимостей (сверху) и в формате СинТагРус (снизу).

Рисунок 1. Разметка предложения в формате UD (сверху) и СинТагРус (снизу). Стрелки отношений в сочиненной группе выделены. Функциональные отношения UD обозначены пунктирными стрелками.

Ниже приводится описание форматов СинТагРус и UD.

СинТагРус

Представление о синтаксической структуре предложения, реализованное в СинТагРусе, восходит к лингвистической модели «Смысл ⇔ Текст» И. А. Мельчука и А. К. Жолковского. Полный перечень используемых синтаксических отношений, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН.

Каждое синтаксическое отношение соответствует определенному классу синтаксических конструкций. Особенностью синтаксической модели, на основе которой строятся структуры в данном корпусе, является то, что в ней различается много типов конструкций и, соответственно, используется большое число отношений (68).

Основанием для различения синтаксических отношений являются различия в синтаксических средствах, скоррелированные с различием в значении. В качестве синтаксических средств учитываются части речи, морфологические характеристики, порядок слов, интонация, знаки препинания, а также синтаксические признаки и те семантические признаки (дескрипторы) слов, которые влияют на их синтаксическое поведение.

Подробнее ознакомиться с синтаксической разметкой СинТагРусе можно по ссылке.

Универсальные зависимости (UD)

Формат Универсальных Зависимостей (Universal Dependencies, см. Nivre et al. 2017, de Marneffe, Nivre 2019) был разработан международным компьютерно-лингвистическим сообществом в качестве вспомогательного инструмента для мультиязычной обработки данных и lingua franca для разметки больших мультиязычных данных. Принципиальные решения были сформулированы под влиянием вербоцентрических теорий взаимодействия семантики и синтаксиса Л. Теньера, И. А. Мельчука, Московской семантической школы, пражского функционализма и Word Grammar. Кроме того, определенное влияние на схему UD оказали форматы представления LFG, HPSG, TAG, реляционной грамматики, референциально-ролевой грамматики, теоретические исследования лингвистических универсалий, типологии маркирования вершин и зависимостей, идей конструкцио-центричности морфосинтаксиса У. Крофта и сопоставительных концептов типологического описания М. Хаспельмата. Частные решения для русского языка были разработаны в Институте русского языка им. В. В. Виноградова РАН и Школе лингвистики НИУ “Высшая школа экономики” (О. Н. Ляшевская, К. А. Дроганова, Ф. Тайерз, С. Ю. Толдова и др.) при участии Д. Земана (Карлов Университет, Чехия), Й. Нивре (Уппсальский университет, Швеция), Р. МакДоналда (Google) и Л. Л. Иомдина (ИППИ РАН).

Базовая разметка дерева зависимостей UD следует принципу “эксплицитного парсинга”: только явно выраженные элементы (токены) включаются в дерево, и у каждого элемента дерева есть ровно один хозяин (синтаксическая вершина). Исключение – вершина всего дерева, которая не имеет хозяина и помечается как root. Ключевое решение UD – противопоставление полнозначных (content words) и функциональных (functional words) элементов дерева. Отношение зависимости устанавливается в первую очередь между полнозначными элементами, а функциональные элементы (предлоги, союзы и т. п.) присоединяются ниже по дереву к ближайшим ассоциированным с ними полнозначным элементам.

Поскольку отношения зависимости в строгом смысле определимы не для всех конструкций, предусмотрены способы представления плоской синтаксической структуры – например, сочинения, синтаксических фразем и конструкций с нарушением управления: поодиночке и парами; все равно что; к первому мая. Дискурсивные элементы, вклинивающиеся в структуру основного дерева, но не влияющие на его форму, оговорки устной речи, опечатки, знаки препинания, смайлики, – все токены, встречающиеся в предложении, становятся элементами представления UD.

Подробнее ознакомиться с перечнем синтаксических отношений (ролей) в Основном, Газетном и ряде других корпусов можно по ссылке.

Публикации

Синтаксические отношения в СинТагРус

  1. И.А.Мельчук. Опыт теории лингвистических моделей Смысл - Текст. М. Наука, 1974
  2. Ю.Д.Апресян, И.М.Богуславский, Л.Л.Иомдин, В.З.Санников. Теоретические проблемы русского синтаксиса. Взаимодействие грамматики и словаря. М., Языки славянских культур, М, 2010

 

Универсальные зависимости

  1. Nivre J., de Marneffe M. C., Ginter F., Goldberg Y., Hajič J., et al. (2016), Universal Dependencies v1: a multilingual treebank collection, Proceedings of the 10th International Conference on Language Resources and Evaluation, pp. 1659–66.
  2. de Marneffe M.C., Nivre J. (2019), Dependency grammar, Annual Review of Linguistics, 5, pp.197-218.
  3. UD annotation guidelines

Обновлено 15.08.2024