Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе (он же Синтаксический корпус НКРЯ), и в формате Универсальных зависимостей (Universal Dependencies, далее UD), используемом в Основном, Газетном и ряде других корпусов.
Оба формата предполагают представление синтаксической структуры предложения в виде дерева зависимостей, в котором каждая дуга (стрелка) идет из главного слова («хозяина») в зависимое слово («слугу») и помечена именем определенного синтаксического отношения. Каждое слово предложения, кроме одного (называемого вершиной предложения), зависит только от одного хозяина и только по одному из синтаксических отношений. Отношения связывают отдельные слова, а не словосочетания (за исключением специальных случаев, оговоренных для корпуса СинТагРус). В синтаксических группах (например, в сочиненной именной группе или придаточной клаузе) один из членов группы выступает в качестве представителя группы во внешних связях, объявляется вершиной группы, а остальные члены группы синтаксически зависят от него.
Схемы синтаксической разметки СинТагРус и UD различаются набором синтаксических отношений и принципами определения главного и зависимого элемента в конструкции. Например, в формате СинТагРус в предложной группе типа (В → лес) предлог является главным, а имя – зависимым, так как предлог определяет морфологическое оформление (падеж) имени и некоторые другие черты синтаксического поведения группы в целом. Формат UD предназначен для унифицированного представления конструкций в языках различного типологического строя, он упрощает выравнивание разметки в параллельных корпусах и, как следствие, поверхностному оформлению конструкций в конкретном языке уделяется меньше внимания. Предлог как грамматический показатель, согласно схеме UD, является зависимым от полнозначного слова (в← ЛЕС), с тем чтобы представление синтаксической структуры всего предложения в языках типа финского, где предложное значение часто выражается морфемой в составе имени, было минимально отлично от представления в языках типа русского, где аналогичное значение выражается “грамматическим словом”. Кроме того, такая схема оказывается более устойчива к “шуму” в реальных письменных и затранскрибированных текстах, где предлоги опускаются чаще, чем полнозначные слова.
Следующий рисунок иллюстрирует ключевые отличия синтаксического представления в формате Универсальных зависимостей (сверху) и в формате СинТагРус (снизу).
Рисунок 1. Разметка предложения в формате UD (сверху) и СинТагРус (снизу). Стрелки отношений в сочиненной группе выделены. Функциональные отношения UD обозначены пунктирными стрелками.
Ниже приводится описание форматов СинТагРус и UD.