Национальный корпус русского языка (НКРЯ, Корпус) — это собрание независимых корпусов, каждый из которых предназначен для решения определенных лингвистических задач. Каждая из этих коллекций текстов является большой по объёму и представительной, что делает их ценным материалом для количественных и качественных исследований. Специфика лингвистических задач определяет состав корпуса и разметку, которая в нем используется.
Наиболее общим по своим задачам является основной корпус, включающий прозаические письменные тексты на протяжении последних трёх с лишним веков, в него входят и опубликованные, и рукописные, и электронные тексты самых разных жанров. Его разметка носит наиболее нейтральный характер, как и отдельного газетного корпуса, самого большого в НКРЯ; он включает тексты центральных СМИ начиная с 1980-х годов.
В то же время поэтический корпус служит основой для специальных стиховедческих исследований, поэтому в нем есть и особая разметка, связанная с ключевыми для стиховедения понятиями — метром и ритмом. Акцентологический корпус посвящен истории русского ударения, играющего ключевую роль в его разметке. Аннотация устного корпуса также отражает ударения и иную специфику звучащей речи. Промежуточное положение между устным и письменным корпусом занимает корпус социальных сетей, тексты которого меньше связаны ограничениями литературной нормы, а также активно используют такую специфическую знаковую систему, как эмотиконы (эмодзи). В мультимедийном корпусе текст сопровождается синхронизированной видео- или аудиозаписью, а в нескольких кинофильмах размечены и жесты. В синтаксическом корпусе предложениям сопоставлена специальная сложная разметка синтаксической структуры. Обучающий корпус включает в себя жанровую и морфологическую разметку, адаптированную к российской школьной программе. Корпус «От 2 до 15», посвященный детскому и подростковому чтению, включает автоматически размеченную информацию о возрасте читателей каждого текста.
Помимо текстов на современном русском языке, ориентированном на литературный стандарт, НКРЯ стремится представить русский язык в его историческом и географическом многообразии. Так, целый ряд корпусов — исторические; отдельными коллекциями текстов представлен древнерусский язык (общий предок также украинского и белорусского языков, это XI—XIV века), старорусский (это язык XV—XVII веков) и церковнославянский язык в его русской версии. Отдельный исторический корпус объединяет такой своеобразный исторический источник, как берестяные грамоты XI—XV веков. Но и основной корпус письменных текстов включает в себя тексты XVIII века, написанные еще до Карамзина и Пушкина. Язык столь раннего периода далеко не всегда понятен современному читателю. Да и у писавших в XIX — начале XX века создателей русского литературного языка, чьи собрания сочинений образуют также отдельный корпус «Русская классика», есть немало непривычного. Исторические тексты и основной корпус связаны общим поиском — это так называемый панхронический корпус, который позволяет проследить историю слова или грамматической конструкции на протяжении нескольких веков.
Диалектный корпус включает в себя устные тексты, записанные у носителей традиционных русских диалектов по всей России, в фонетической записи и с сохранением всех особенностей лексики и грамматики. Корпус региональной прессы содержит тексты на нормированном литературном языке, очень незначительно отличающиеся по языку от изданий, выходящих в Москве или Петербурге, тем не менее и в них проникает местная лексика и реалии.
Большинство корпусов, входящих в НКРЯ, одноязычные, то есть в них входят только тексты на одном языке. Исключением является параллельный корпус, где оригинальные русские тексты сопровождаются переводом на другой язык или иноязычные произведения переведены на русский. НКРЯ включает несколько десятков русско-иноязычных языковых пар и многоязычный корпус, где один и тот же текст переведен на несколько языков. Один из исторических корпусов — корпус берестяных грамот — тоже параллельный: древнерусский текст дается с переводами на современный русский и английский языки. Наконец, имеется и мультимедийный параллельный корпус, где представлены или англоязычные фильмы в русском переводе, или постановки одного и того же текста на английском и русском языках.