Разметка словообразовательной структуры (морфемного состава)

В Основном корпусе НКРЯ доступен поиск по словообразовательной структуре (морфемному составу) слова.

В сервисе «Портрет слова» (в Основном и Обучающем корпусах) для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.

Разборы даются только для лексем в их словарной форме: за-щищ-а-ть-ся (не отдельных словоформ вроде защищающимися).

Словарная и автоматическая разметка

В основе разметки словообразовательной структуры в Основном корпусе лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Разметка морфем в Обучающем корпусе опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем. Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс, окончание или постфикс) и линейная позиция в слове.

Информация о морфемном составе слова в сервисе «‎Портрет слова» в Основном корпусе дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово гарантировать отсутствует в словаре морфемного анализа, так что его членение (гарант-ирова-ть) предсказано алгоритмом. Автоматические разборы сгенерированы алгоритмом на базе ансамбля свёрточных нейронных сетей. При разработке модели использована архитектура, предложенная А. Сорокиным и А. Кравцовой. Автоматические разборы снабжены специальным признаком «‎сгенерировано НейроКРЯ». В Обучающем корпусе для слов, не входящих в словник словаря А. Н. Тихонова, в текущей версии морфемный состав не определяется. Однако в дальнейшем планируется разметить морфемную структуру всех знаменательных слов на основе нейросетевого алгоритма.

При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «‎Оценить». Обратите внимание, что членение слов на морфемы в Основном корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).

В пословной разметке Основного корпуса, доступной в поиске, нейросетевой механизм пока не используется, кроме того, в ней задействована более ранняя версия словаря морфемного анализа.

Принципы разметки

Словарь морфемного анализа Основного корпуса НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986).  Принципы этой идеологии — значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся). или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся). Разбираются в том числе и служебные части речи, а также имена собственные и производные от них.

В Обучающем корпусе  морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе. При этом используется более жесткий подход к определению того, какие смысловые связи являются прозрачными в современном языке, и, как правило, выделяется меньшее число морфем, чем в Основном корпусе: например, указанные выше слова анализируются как улыб-а-ть-ся, насеком-ое, восточ-н-ый, революци-я, квитанци-я. В портрете слова, представленном в Обучающем корпусе, дается морфемное строение только слов, относящихся к знаменательным частям речи, — нарицательным существительным, прилагательным, глаголам и наречиям. Разметка морфем в Обучающем корпусе, как уже сказано выше, опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс  лексем.

Поиск

Поиск по морфемам поддерживается только в Основном корпусе и задается в поле «Словообразование» лексико-грамматического поиска. По умолчанию этот параметр в форме запроса не выводится (его можно вывести, нажав на «добавить условие»).

При поиске по морфемам в НКРЯ следует задавать один или несколько из следующих параметров: буквенный состав морфемы, тип морфемы, линейную позицию. Если задать морфему бав, тип «корень» и позицию 3, то найдутся слова вдобавок или позабавить.

При поиске можно также выбрать параметр «‎с учетом чередования», добавляющий к морфеме ее алломорфы. Например, при поиске корня -ук- без этого параметра найдется только слово наука, а с этим параметром — еще и учить, ученый и т. д.

Разработчики

Разработчиками изначальной концепции словаря морфемного анализа Основного корпуса были Е. А. Гришина, И. Б. Иткин, О. Н. Ляшевская и М. Г. Тагабилева, в дальнейшем словарь морфемного анализа дорабатывался О. Н. Ляшевской, Е. В. Кашкиным и Д. В. Сичинавой. Алгоритм нейросетевого анализа несловарных слов разработан Д. А. Морозовым и Т. А. Гариповым на основе архитектуры, предложенной А. А. Сорокиным.

Мы благодарим М. М. Литвинову за ценные замечания и советы при подготовке морфемного анализа Обучающего корпуса.

Литература

Е. Гришина, И. Иткин, О. Ляшевская, М. Тагабилева. О задачах и методах словообразовательной разметки в корпусе текстов // Полярный вестник (Тромсё), 2009, № 12, с. 5–25

Sorokin, A., Kravtsova, A. Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language. In: Ustalov, D., Filchenkov, A., Pivovarova, L., Žižka, J. (eds) Artificial Intelligence and Natural Language. AINL 2018. Communications in Computer and Information Science, vol 930. Springer, Cham. https://doi.org/10.1007/978-3-030-01204-5_1

T. Garipov, D. Morozov and A. Glazkova, "Generalization Ability of CNN-Based Morpheme Segmentation," 2023 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2023, pp. 58-62, doi: 10.1109/ISPRAS60948.2023.10508171

Обновлено 05.08.2024