Корпус
  • 28 234 текста
  • 18 798 285 слов
исторический, омонимия снята, синтаксически размечен

Корпус включает художественные, публицистические и эпистолярные произведения, а также деловые документы из собраний сочинений русских классических писателей. 

На данный момент в корпусе представлены русскоязычные произведения

  • А. Н. Радищева
  • И. А. Крылова
  • В. А. Жуковского
  • А. С. Грибоедова
  • А. С. Пушкина
  • Е. А. Баратынского
  • М. Ю. Лермонтова
  • Н. В. Гоголя
  • Ф. И. Тютчева
  • И. С. Тургенева
  • М. Е. Салтыкова-Щедрина
  • Л. Н. Толстого
  • Н. С. Лескова
  • А. П. Чехова

Понятие «классический автор», безусловно, в определенной мере субъективно и определяется неформальным консенсусом, литературоведческой, педагогической и издательской практикой. Этот консенсус может меняться с течением времени по разным причинам: например, басни Крылова стали школьной классикой еще при его жизни, а поэзию Баратынского заново открыли только модернисты; в 1930—1950-е годы в Советском Союзе «великим писателем» по идеологическим соображениям не считался Достоевский, а для Лескова репутация автора первого ряда стала привычной лишь к последним десятилетиям XX века. Одним из критериев «классичности» может быть отсутствие в фундаментальном биобиблиографическом словаре «Русские писатели. 1800—1917», начавшем выходить в 1989 г., дефиниции типа «поэт, прозаик» после имени и дат жизни; для большинства перечисленных выше персоналий она опускается (то есть предполагается, что целевая аудитория этого словаря не может не представлять себе творчество Пушкина или Щедрина хотя бы в общих чертах).  Для нашей цели существенно то, что для этих авторов существуют полные или приближенные к таковым собрания сочинений, вышедшие в XX—XXI веках, с установкой на максимальный охват текстов самых разных жанров, а также на исчерпывающую публикацию печатных и рукописных вариантов. Разумеется, не все творческие произведения «классических» авторов сами являются «классическими»: например, драматургия и романы Некрасова или все сочинения Грибоедова, кроме «Горя от ума», малоизвестны неспециалистам и не оказали на литературу и язык влияние, сопоставимое с широко признанными шедеврами. Однако для изучения авторского языка и стиля важна любая строка писателя (см. об этом также ниже).

Для включения в корпус предпочтение отдавалось оцифрованным полным собраниям сочинений, размещенным в электронных библиотеках, в частности, rvb.ru и feb-web.ru. Изданные в советское время наиболее представительные собрания сочинений Жуковского, Гоголя и Лескова не являются полными, в том числе и из идеологических соображений. Тексты Л. Н. Толстого и А. П. Чехова конвертированы из коллекций соответствующих цифровых проектов. В корпус не были включены редакторские переводы текстов на иностранных языках. Включаются также тексты, написанные в основном на иностранном языке, но содержащие нетривиальные русские слова и словосочетания или черновые версии на русском языке.

По умолчанию тексты в поисковой выдаче отсортированы от более ранних к более поздним. Доступна также сортировка по имени автора (а внутри текстов одного автора — по жанру и названию). В корпусе можно построить диахронический график частотности, а также сравнивать на графике несколько запросов. Задав подкорпус по имени автора, жанру или параметру «проза/поэзия», можно сравнивать метапризнаки и частотные словари с корпусом в целом. Имеются те же формы выдачи («Статистика», «Частотность», «N-граммы»), что в Основном корпусе. Доступен «Портрет слова», а в нём сервисы «Скетчи» и «Похожие слова».

Сейчас корпус находится в бета-версии (в частности, возможны ошибки конвертирования и распознавания текстов), планируется его пополнение новыми авторами и произведениями. Приблизительный объем текстов — 18 млн словоупотреблений.

Цели корпуса

Корпус «Русская классика» имеет специальный статус в составе Национального корпуса русского языка. С одной стороны, это исторический корпус — в него включаются произведения авторов конца XVIII—XIX веков. Самый поздний по дате рождения из включённых авторов — А. П. Чехов (1860), самые поздние тексты написаны в последний год жизни Л. Н. Толстого (1910). Разумеется, русский язык с тех пор изменился, многое у классиков с точки зрения сегодняшнего носителя языка устарело или непонятно без комментария, и язык этих авторов нельзя считать «современным русским языком» без оговорок.

Тем не менее эти тексты продолжают быть актуальными с точки зрения русского литературного стандарта и занимают особое место в истории литературного языка. К ним традиционно апеллируют как нормативные и описательные грамматики, так во многом и наивное чувство нормы. Если считать, что литературный язык — такой, который «обработан мастерами», тексты этих мастеров и составляют ядро корпуса русского литературного языка. С таким корпусом (при определенных оговорках) можно сверяться как с нормативным, а не узусным источником, из него можно извлекать авторитетные примеры для академических грамматик, словарей и учебных пособий.

Включить все эти тексты в состав Основного корпуса было бы спорным решением, так как нарушило бы жанровую и авторскую сбалансированность. Одно только наследие Льва Толстого составляет около 7 млн словоупотреблений, то есть несколько менее 2 % Основного корпуса. Это большое число. Добавление полного собрания сочинений Толстого создало бы серьезный перекос в сторону одного автора. Кроме того, заметная доля текстов в собраниях русских классиков — это художественные произведения, которые в НКРЯ всегда стремились ограничить 40 % от общего объема. Здесь же не ставится задачи баланса данных по жанру, авторству, дате создания и прочим параметрам, а приоритет отдается именно полноте. Наконец, создатели Основного корпуса избегают включать в него черновики и редакционные варианты произведений, которые зачастую содержат интересный языковой материал.

Таким образом, цель корпуса в том, чтобы, не связывая себя ограничениями Основного корпуса, максимально широко представить в НКРЯ наследие русской классики, постепенно превратив его в корпус русского литературного языка XIX и начала XX века.

Поскольку задача корпуса в том, чтобы собрать вместе в наиболее полном виде произведения (не только художественные, но и официально-деловые, бытовые и др.) классических русских писателей, разметка текстов аскетична и включает только минимальный набор параметров, используемых во всех корпусах НКРЯ: самые общие метаданные (авторство, название, дата, жанр и параметр «поэзия/проза»), морфологическую и семантическую аннотацию. Стиховедческая разметка в поэтических текстах отсутствует, но ее можно найти в специализированном корпусе.

Еще одним полезным свойством корпуса является возможность осуществлять поиск по текстам отдельных авторов, которые представлены полнее, чем в Основном корпусе. Можно задавать запросы и при поиске по отдельным произведениям. Это позволяет находить идиостилистические особенности писателей, уточнять их предпочтения в сфере лексики и конструкций. Именно с целью изучения идиолекта связано по возможности полное включение в корпус наследия автора, в том числе эпистолярных или деловых текстов, где он не ставил перед собой творческих задач.

Так, специфичное для Тургенева слово «полузавядший» встречается и в одной из редакций повести Толстого «Юность», а специфичный для Лескова оборот «она немедленно же» действительно характерен именно для его индивидуального стиля.

Создание корпуса

Над корпусом работали:

Б. В. Орехов (общая концепция корпуса; сбор текстов, программная обработка)

М. И. Сатина (доразметка метаданных)

Д. В. Сичинава (ручная вычитка, программная обработка, доразметка метаданных)

П. В. Дяченко (реализация поиска)

А. Е. Поляков (подготовка текстов Н. В. Гоголя)

Публикации

Ознакомьтесь со списком научных публикаций о корпусе «Русская классика» по ссылке: https://ruscorpora.ru/s/enXPp. В разделе «‎Публикации»‎ используйте фильтры, чтобы найти другие типы публикаций о корпусе.

 

Обновлено 03.03.2025