Корпус включает художественные, публицистические и эпистолярные произведения, а также деловые документы из собраний сочинений русских классических писателей.
На данный момент в корпусе представлены русскоязычные произведения
- А. Н. Радищева
- И. А. Крылова
- В. А. Жуковского
- А. С. Грибоедова
- А. С. Пушкина
- Е. А. Баратынского
- М. Ю. Лермонтова
- Н. В. Гоголя
- Ф. И. Тютчева
- И. С. Тургенева
- М. Е. Салтыкова-Щедрина
- Л. Н. Толстого
- Н. С. Лескова
- А. П. Чехова
Понятие «классический автор», безусловно, в определенной мере субъективно и определяется неформальным консенсусом, литературоведческой, педагогической и издательской практикой. Этот консенсус может меняться с течением времени по разным причинам: например, басни Крылова стали школьной классикой еще при его жизни, а поэзию Баратынского заново открыли только модернисты; в 1930—1950-е годы в Советском Союзе «великим писателем» по идеологическим соображениям не считался Достоевский, а для Лескова репутация автора первого ряда стала привычной лишь к последним десятилетиям XX века. Одним из критериев «классичности» может быть отсутствие в фундаментальном биобиблиографическом словаре «Русские писатели. 1800—1917», начавшем выходить в 1989 г., дефиниции типа «поэт, прозаик» после имени и дат жизни; для большинства перечисленных выше персоналий она опускается (то есть предполагается, что целевая аудитория этого словаря не может не представлять себе творчество Пушкина или Щедрина хотя бы в общих чертах). Для нашей цели существенно то, что для этих авторов существуют полные или приближенные к таковым собрания сочинений, вышедшие в XX—XXI веках, с установкой на максимальный охват текстов самых разных жанров, а также на исчерпывающую публикацию печатных и рукописных вариантов. Разумеется, не все творческие произведения «классических» авторов сами являются «классическими»: например, драматургия и романы Некрасова или все сочинения Грибоедова, кроме «Горя от ума», малоизвестны неспециалистам и не оказали на литературу и язык влияние, сопоставимое с широко признанными шедеврами. Однако для изучения авторского языка и стиля важна любая строка писателя (см. об этом также ниже).
Для включения в корпус предпочтение отдавалось оцифрованным полным собраниям сочинений, размещенным в электронных библиотеках, в частности, rvb.ru и feb-web.ru. Изданные в советское время наиболее представительные собрания сочинений Жуковского, Гоголя и Лескова не являются полными, в том числе и из идеологических соображений. Тексты Л. Н. Толстого и А. П. Чехова конвертированы из коллекций соответствующих цифровых проектов. В корпус не были включены редакторские переводы текстов на иностранных языках. Включаются также тексты, написанные в основном на иностранном языке, но содержащие нетривиальные русские слова и словосочетания или черновые версии на русском языке.
По умолчанию тексты в поисковой выдаче отсортированы от более ранних к более поздним. Доступна также сортировка по имени автора (а внутри текстов одного автора — по жанру и названию). В корпусе можно построить диахронический график частотности, а также сравнивать на графике несколько запросов. Задав подкорпус по имени автора, жанру или параметру «проза/поэзия», можно сравнивать метапризнаки и частотные словари с корпусом в целом. Имеются те же формы выдачи («Статистика», «Частотность», «N-граммы»), что в Основном корпусе. Доступен «Портрет слова», а в нём сервисы «Скетчи» и «Похожие слова».
Сейчас корпус находится в бета-версии (в частности, возможны ошибки конвертирования и распознавания текстов), планируется его пополнение новыми авторами и произведениями. Приблизительный объем текстов — 18 млн словоупотреблений.