Разметка словообразовательной структуры (морфемного состава)
В Основном корпусе НКРЯ доступен поиск по словообразовательной структуре (морфемному составу) слова.
В сервисе «Портрет слова» (в Основном и Обучающем корпусах) для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.
Разборы даются только для лексем в их словарной форме: за-щищ-а-ть-ся (не отдельных словоформ вроде защищающимися).
Словарная и автоматическая разметка
В основе разметки словообразовательной структуры в Основном корпусе лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Разметка морфем в Обучающем корпусе опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем. Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс, окончание или постфикс) и линейная позиция в слове.
Информация о морфемном составе слова в сервисе «Портрет слова» в Основном корпусе дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово гарантировать отсутствует в словаре морфемного анализа, так что его членение (гарант-ирова-ть) предсказано алгоритмом. Автоматические разборы сгенерированы алгоритмом на базе ансамбля свёрточных нейронных сетей. При разработке модели использована архитектура, предложенная А. Сорокиным и А. Кравцовой. Автоматические разборы снабжены специальным признаком «сгенерировано НейроКРЯ». В Обучающем корпусе для слов, не входящих в словник словаря А. Н. Тихонова, в текущей версии морфемный состав не определяется. Однако в дальнейшем планируется разметить морфемную структуру всех знаменательных слов на основе нейросетевого алгоритма.
При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «Оценить». Обратите внимание, что членение слов на морфемы в Основном корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).
В пословной разметке Основного корпуса, доступной в поиске, нейросетевой механизм пока не используется, кроме того, в ней задействована более ранняя версия словаря морфемного анализа.
Принципы разметки
Словарь морфемного анализа Основного корпуса НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986). Принципы этой идеологии — значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся). или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся). Разбираются в том числе и служебные части речи, а также имена собственные и производные от них.
В Обучающем корпусе морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе. При этом используется более жесткий подход к определению того, какие смысловые связи являются прозрачными в современном языке, и, как правило, выделяется меньшее число морфем, чем в Основном корпусе: например, указанные выше слова анализируются как улыб-а-ть-ся, насеком-ое, восточ-н-ый, революци-я, квитанци-я. В портрете слова, представленном в Обучающем корпусе, дается морфемное строение только слов, относящихся к знаменательным частям речи, — нарицательным существительным, прилагательным, глаголам и наречиям. Разметка морфем в Обучающем корпусе, как уже сказано выше, опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем.
Поиск
Поиск по морфемам поддерживается только в Основном корпусе и задается в поле «Словообразование» лексико-грамматического поиска. По умолчанию этот параметр в форме запроса не выводится (его можно вывести, нажав на «добавить условие»).
При поиске по морфемам в НКРЯ следует задавать один или несколько из следующих параметров: буквенный состав морфемы, тип морфемы, линейную позицию. Если задать морфему бав, тип «корень» и позицию 3, то найдутся слова вдобавок или позабавить.
При поиске можно также выбрать параметр «с учетом чередования», добавляющий к морфеме ее алломорфы. Например, при поиске корня -ук- без этого параметра найдется только слово наука, а с этим параметром — еще и учить, ученый и т. д.
Разработчики
Разработчиками изначальной концепции словаря морфемного анализа Основного корпуса были Е. А. Гришина, И. Б. Иткин, О. Н. Ляшевская и М. Г. Тагабилева, в дальнейшем словарь морфемного анализа дорабатывался О. Н. Ляшевской, Е. В. Кашкиным и Д. В. Сичинавой. Алгоритм нейросетевого анализа несловарных слов разработан Д. А. Морозовым и Т. А. Гариповым на основе архитектуры, предложенной А. А. Сорокиным.
Мы благодарим М. М. Литвинову за ценные замечания и советы при подготовке морфемного анализа Обучающего корпуса.
Литература
Е. Гришина, И. Иткин, О. Ляшевская, М. Тагабилева. О задачах и методах словообразовательной разметки в корпусе текстов // Полярный вестник (Тромсё), 2009, № 12, с. 5–25
Sorokin, A., Kravtsova, A. Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language. In: Ustalov, D., Filchenkov, A., Pivovarova, L., Žižka, J. (eds) Artificial Intelligence and Natural Language. AINL 2018. Communications in Computer and Information Science, vol 930. Springer, Cham. https://doi.org/10.1007/978-3-030-01204-5_1
T. Garipov, D. Morozov and A. Glazkova, "Generalization Ability of CNN-Based Morpheme Segmentation," 2023 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2023, pp. 58-62, doi: 10.1109/ISPRAS60948.2023.10508171