Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Нижеприведенное описание относится ко всем подкорпусам НКРЯ, содержащим текст на современном русском литературном (ориентированном на стандарт) языке, кроме Синтаксического корпуса СинТагРус, использующего собственный стандарт морфологической разметки. В конце этой страницы стандарт Синтаксического корпуса описан отдельно. Определенные отклонения от базового стандарта имеются в Обучающем корпусе, разметка которого приближена к нормам морфологического анализа, принятого в средней школе.
Исторические корпуса, а также Панхронический и Диалектный корпус используют стандарты морфологической разметки, в своей основе близкие принятому в корпусах современного литературного языка, однако эти стандарты включают дополнительные специфические пометы и по-иному трактуют ряд общих с базовым стандартом помет.
Структура морфологической информации
Морфологическая информация, приписываемая произвольной словоформе в тексте, содержательно делится на четыре типа информации:
- Лексема (лемма), которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
- Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
- Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
- Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Большая часть этой информации дается в поле поискового запроса «Грамматические признаки». Словарная запись из типа (1) дается в поле поискового запроса «Лемма», часть информации типа (4) — в поле «Доп. признаки».
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном всплывающем окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет положена система сокращенных помет («тегов») на основе латинского алфавита. Их можно вводить в соответствующее поле формы поиска с клавиатуры. В то же время предусмотрена возможность использования при поиске названий грамматических признаков на русском языке в форме «грамматические признаки». Кроме того, русские обозначения выводятся при щелчке по слову во всплывающем анализе слова в поисковой выдаче (если задан русский язык интерфейса).
Ниже приводим базовый инвентарь грамматических помет, используемых в корпусах текстов на современном русском литературном языке. Для пояснения в скобках даются примеры.