Морфологическая разметка

Морфологический стандарт Национального корпуса русского языка

Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).

Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.

Нижеприведенное описание относится ко всем подкорпусам НКРЯ, содержащим текст на современном русском литературном (ориентированном на стандарт) языке, кроме Синтаксического корпуса СинТагРус, использующего собственный стандарт морфологической разметки.  В конце этой страницы стандарт Синтаксического корпуса описан отдельно. Определенные отклонения от базового стандарта имеются в Обучающем корпусе, разметка которого приближена к нормам морфологического анализа, принятого в средней школе.

Исторические корпуса, а также Панхронический и Диалектный корпус используют стандарты морфологической разметки, в своей основе близкие принятому в корпусах современного литературного языка, однако эти стандарты включают дополнительные специфические пометы и по-иному трактуют ряд общих с базовым стандартом помет.

 

Структура морфологической информации

Морфологическая информация, приписываемая произвольной словоформе в тексте, содержательно делится на четыре типа информации:

  1. Лексема (лемма), которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
  2. Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
  3. Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
  4. Информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Большая часть этой информации дается в поле поискового запроса «Грамматические признаки». Словарная запись из типа (1) дается в поле поискового запроса «Лемма», часть информации типа (4)  — в поле «Доп. признаки».

Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном всплывающем окне при щелчке на словоформе курсором мыши.

В основу метаязыка грамматических помет положена система сокращенных помет («тегов») на основе латинского алфавита. Их можно вводить в соответствующее поле формы поиска с клавиатуры. В то же время предусмотрена возможность использования при поиске названий грамматических признаков на русском языке в форме «грамматические признаки». Кроме того, русские обозначения выводятся при щелчке по слову во всплывающем анализе слова в поисковой выдаче (если задан русский язык интерфейса).

Ниже приводим базовый инвентарь грамматических помет, используемых в корпусах текстов на современном русском литературном языке. Для пояснения в скобках даются примеры.

Части речи
S существительное (яблоня, лошадь, корпус, вечность)
A прилагательное (коричневый, таинственный, морской)
NUM числительное (четыре, десять, много)
ANUM числительное-прилагательное (один, седьмой, восьмидесятый)
V глагол (пользоваться, обрабатывать)
ADV наречие (сгоряча, очень)
PRAEDIC предикатив (жаль, хорошо, пора)
PARENTH вводное слово (кстати, по-моему)
SPRO местоимение-существительное (она, что)
APRO местоимение-прилагательное (который, твой)
ADVPRO местоименное наречие (где, вот)
PRAEDICPRO местоимение-предикатив (некого, нечего)
PR предлог (под, напротив)
CONJ союз (и, чтобы)
PART частица (бы, же, пусть)
INTJ междометие (увы, батюшки)
INIT запись в виде инициалов (Р., NN)
NONLEX не разбираемые последовательности символов (hello, №, %)

 

Значения грамматических категорий

Род
m мужской род (работник, стол)
f женский род (работница, табуретка)
m-f «общий род» (задира, пьяница)
n средний род (животное, озеро)
Одушевленность
anim одушевленность (человек, ангел, утопленник)
inan неодушевленность (рука, облако, культура)
Число
sg единственное число (яблоко, гордость)
pl множественное число (яблоки, ножницы, детишки)
Падеж
nom именительный падеж (голова, сын, степь, сани, который)
gen родительный падеж (головы, сына, степи, саней, которого)
dat дательный падеж (голове, сыну, степи, саням, которому)
acc винительный падеж (голову, сына, степь, сани, который/которого)
ins творительный падеж (головой, сыном, степью, санями, которым)
loc предложный падеж ([о] голове, сыне, степи, санях, котором)
gen2 второй родительный падеж (чашка чаю)
acc2 второй винительный падеж (постричься в монахи; по два человека)
loc2 второй предложный падеж (в лесу, на оси́)
voc звательная форма (Господи, Серёж, ребят)
adnum счётная форма (два часа́, три шара́)
Краткая/полная форма
brev краткая форма (высок, нежна, прочны, рад)
plen полная форма (высокий, нежная, прочные, морской)
Степень сравнения
comp сравнительная степень (глубже)
comp2 форма «по+сравнительная степень» (поглубже)
supr превосходная степень (глубочайший)
Вид
pf совершенный вид (пошёл, встречу)
ipf несовершенный вид (ходил, встречаю)
Переходность
intr непереходность (ходить, вариться)
tran переходность (вести, варить)
Залог
act действительный залог (разрушил, разрушивший)
pass страдательный залог (только у причастий: разрушаемый, разрушенный)
med медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)
Форма (репрезентация) глагола
inf инфинитив (украшать)
partcp причастие (украшенный)
ger деепричастие (украшая)
Наклонение
indic изъявительное наклонение (украшаю, украшал, украшу)
imper повелительное наклонение (украшай)
imper2 форма повелительного наклонения 1 л. мн. ч. на -те (идемте)
Время
praet прошедшее время (украшали, украшавший, украсив)
praes настоящее время (украшаем, украшающий, украшая)
fut будущее время (украсим)
Лицо
1p первое лицо (украшаю)
2p второе лицо (украшаешь)
3p третье лицо (украшает)
Прочие признаки
persn личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)
patrn отчество (Иванович, Павловна)
famn фамилия (Николаев, Волконская, Гумбольдт)
zoon кличка животного (Шарик, Дочка)
0 несклоняемое (шоссе, Седых)

Часть указанных помет (а именно, инициал, второй винительный падеж, счётная форма, зооним) присутствуют только в корпусах со снятой грамматической омонимией. Помета «общий род» присутствует только в текстах со снятой вручную омонимией из Основного корпуса (в свою очередь, в них отсутствует помета «превосходная степень»).

 

Множественные разборы

Часть корпусов текстов на современном литературном языке (прежде всего Основной) содержит тексты со снятой, вручную или автоматически, грамматической и лексической омонимией. В других таких корпусах (например, Устный, Поэтический, русские тексты Параллельного) морфологическая омонимия не снята, то есть при одной и той же словоформе указываются все возможные разборы. Доступна такая опция поиска и при работе с корпусами, где омонимия по умолчанию снята.

Тем не менее в отдельных случаях допускается обусловленное реальной неоднозначностью указание у одной и той же словоформы нескольких разборов даже в текстах Основного корпуса со снятой вручную омонимией, а именно:

  • Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

  • Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)

 

Информация о нестандартности и особенностях записи

Предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. 

  • anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)

  • distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

  • ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).

  • abbr («Сокращение») — сокращенная запись (тов., гг., ч.). Эту помету получают также инициалы (см. ниже)

Кроме того, в поле «Доп. признаки» используется особая помета bastard для несловарной формы, не входящей в словарь автоматического анализатора MyStem.  Словарные формы обозначены в том же поле пометой norm.

 

Корпусный словарь неоднословных лексических единиц

В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и т. п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.

Перейти на страницу словаря неоднословных единиц.

Морфологическая разметка в Синтаксическом корпусе

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписаны часть речи и морфологические характеристики, т.е. значения соответствующих морфологических категорий. 

В настоящее время список морфологических характеристик и категорий несколько отличается от набора категорий и характеристик, используемого в основном морфологическом стандарте НКРЯ. В частности, по техническим причинам морфологические характеристики в Синтаксическом корпусе, в отличие от морфологического стандарта НКРЯ, записываются кириллицей.

Так, структура словоформы "читавшуюся" имеет следующий вид:

читавшуюся → ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен, вин.

V здесь обозначает глагол, прич – причастие, несов – несовершенный вид, прош – прошедшее время, страд – страдательный залог, жен – женский род, ед – единственное число, вин – винительный падеж.

Ниже приводится полный список частей речи, русских морфологических категорий и характеристик, а также принятых для них условных обозначений. 

Часть речи
V глагол: работать, нравиться
S существительное: завод, я
A прилагательное: новый, мой, второй
ADV наречие: плохо, отчасти
NUM числительное: пять, 2
PR предлог: в, между, вопреки
CONJ союз: и, что, как
PART частица: бы, ли, только
INTJ междометие: ого, увы, эх
COM композит: вице, квази, экс, ультра и другие элементы, употребляющиеся в составе сложных слов
NID слово, представляющее собой иноязычное вкрапление в русский текст или несловесную формулу: Берлинер Цайтунг, Berliner Zeitung, Щ243
 

Местоимения не рассматриваются как особая часть речи, поскольку по морфологическим (способы словоизменения) и синтаксическим свойствам они примыкают к существительным (я, кто, который), прилагательным (мой, какой) или наречиям (там, куда).

Слова типа первый, сотый и т.д., традиционно определяемые как порядковые числительные, в корпусе считаются прилагательными.

Одушевленность
од одушевленное слово
неод неодушевленное слово

Категория одушевленности характеризует существительные, прилагательные, числительные, а также причастия. Для существительных одушевленность, будучи классифицирующей грамматической категорией, указывается всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют разные окончания в зависимости от того, к какому существительному относятся. Эта разница релевантна для прилагательных и причастий мужского рода единственного числа: Вижу красивый [муж, ед, вин, неод] дом — Вижу красивого [муж, ед, вин, од] мальчика, и для прилагательных и причастий множественного числа: Вижу летящие [мн, вин, неод] самолеты — Вижу летящих [мн, вин, од] журавлей.

Род
муж мужской род
жен женский род
сред средний род
Число
ед единственное число
мн множественное число
Падеж
им именительный падеж
род родительный падеж
парт партитивный (второй родительный) падеж: дайте чаю, кофейку, сахарку
дат дательный падеж
вин винительный падеж
твор творительный падеж
пр предложный падеж
местн местный (второй предложный) падеж: (в) лесу, (на) снегу
зв звательный падеж: Боже, отче, Вань, мам

Партитивный, местный и звательный падежи указываются только для существительных, у которых эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже [зв] мой [им].

Степень сравнения
срав сравнительная степень прилагательных и наречий
прев превосходная степень прилагательных

Положительная степень сравнения в явном виде не указывается: она характеризуется отсутствием характеристик срав и прев. Степень сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший). Аналитические степени сравнения (более сильный, самый сильный) характеризуют словосочетания, а не отдельные словоформы.

Краткость
кр краткая форма прилагательного или причастия: короток, рассмотрен

Полная форма прилагательного или причастия не указывается в явном виде и характеризуется отсутствием характеристики кр.

Репрезентация
инф инфинитив
прич причастие
деепр деепричастие

Личная форма глагола (четвертое значение категории репрезентации) не указывается в явном виде и характеризуется отсутствием характеристик инфприч и деепр.

Наклонение
изъяв изъявительное наклонение
пов повелительное наклонение

Сослагательное наклонение в русском языке (поехал бы) выражается только аналитически и характеризует словосочетания, а не отдельные словоформы.

Вид
несов несовершенный вид
сов совершенный вид

Заметим, что в Синтаксическом корпусе категория вида считается словоизменительной: глаголы приходить-прийти или читать-прочитать относятся к единым парадигмам.

Время
непрош непрошедшее (настоящее-будущее) время: читаю, прочитаю
прош прошедшее время: читал, прочитал, был
наст настоящее время: есть, суть

Настоящее время приписывается только глаголу быть в личной форме.

Лицо
1-л первое лицо
2-л второе лицо
3-л третье лицо

Характеристики лица приписываются только глаголам. Личным местоименным существительным, для которых категория лица не является словоизменительной, эти характеристики не приписываются.

Залог
страд страдательный залог: читается, читаемый, читанный, читавшийся

Действительный залог не указывается в явном виде и характеризуется отсутствием пометы страд. Никакие другие залоги (взаимный, медиальный, возвратный) в морфологическом представлении Синтаксического корпуса не отмечаются.

Дополнительные характеристики
сл форма, используемая в словосложении: водо, турецко, физико, дву, гос

Словоформы с характеристикой сл могут входить в состав парадигм существительных (вода – водо, нефть – нефте), прилагательных (турецкий – турецко, физический – физико, государственный - гос) или числительных (два – дву). Обычно они выступают в составе сложных слов: водоснабжение, турецко-русский, физико-технический, господдержка, однако иногда встречаются и отдельно, в основном в составе однородных конструкций (водо- и теплоснабжение, турецко- и персидско-русские словари). Необходимо отличать словоформы существительных, прилагательных, числительных, имеющие характеристику сл, от композитов, т.е. слов, принадлежащих части речи COM: в отличие от первых, парадигмы композитов состоят из единственной словоформы, и их леммы совпадают с этой словоформой. Композиты также используются в словосложении (анти, контр, противо, про, квази, вице, теле, авиа, видео и пр.) и также могут выступать как в составе сложных слов (антитеррористический), так и отдельно (авиа- и железнодорожные перевозки).

смяг смягченная сравнительная степень прилагательных и наречий с приставкой по: поумнее, пораньше

Таким формам, наряду с характеристикой смяг, приписана и характеристика срав.

Следует добавить, что в морфологической разметке Синтаксического корпуса действуют  строгие ограничения на комбинации граммем. В частности, не допускается дублирование граммем в одном морфологическом разборе и не может быть двух граммем, относящихся к одной грамматической категории.

Обновлено 24.04.2024