В настоящее время в Корпусе реализована система поиска по лексико-семантическим признакам, основанная на частичной семантической разметке текстов.
При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т. п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре признаков.
Разметка текстов осуществляется автоматически с помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков.
В основу семантической разметки положена система классификации русской лексики, принятая в базе данных "Лексикограф", которая разрабатывалась с 1992 г. в Отделе лингвистических исследований ВИНИТИ РАН под рук. Е. В. Падучевой и Е. В. Рахилиной. Для нужд Корпуса был существенно увеличен словник, расширен состав и усовершенствована структура семантических классов, добавлены словообразовательные признаки.
Словник семантического словаря базируется на морфологическом словаре системы DIALING (общим объемом порядка 120 тыс. слов), представляющим собой расширение Грамматического словаря русского языка А. А. Зализняка. Текущая версия семантического словаря включает слова знаменательных частей речи: существительные, прилагательные, числительные, местоимения, глаголы и наречия.
При работе над семантической разметкой использовались сведения о значении слов и структуре семантических классов из следующих источников:
- Словарь русского языка под ред. С. И. Ожегова
- Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой
- Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)
- Словарь русского языка в 17-ти тт. (БАС)
- Толковый словарь русского языка Д. Н. Ушакова
- Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3
- Толковый словарь русских глаголов под ред. Л. Г. Бабенко
- Системный семантический словарь русского языка Л. М. Васильева
- Новый объяснительный словарь синонимов русского языка под общим рук. акад. Ю. Д. Апресяна (НОСС)