Вопросы и ответы

Что такое корпус текстов?

Корпус текстов — это собрание текстов в электронной форме с широкими возможностями поиска по разным параметрам.

Чем НКРЯ отличается от других корпусов?

Национальный корпус русского языка — самый первый из корпусов текстов русского языка, наиболее сбалансированный (в нем представлены тексты самых разных жанров приблизительно в той пропорции, в которой с ними сталкивается обычный носитель языка) и имеющий наибольшую академическую поддержку (разработкой корпуса занимается большая команда лингвистов).

Чем корпус текстов отличается от электронных библиотек?

Электронная библиотека используется для поиска литературы и ее чтения онлайн или офлайн. Корпус текстов предназначен для поиска примеров употребления слов и словосочетаний: в нем обычно невозможно ни читать, ни скачивать полные тексты. Зато все тексты корпуса снабжены лингвистической разметкой: это позволяет формулировать сложные поисковые запросы и с их помощью находить примеры, которые не получилось бы найти в электронной библиотеке.

Как может пригодиться НКРЯ?

В НКРЯ можно:

найти самое раннее употребление слова телевидение (1915 год!)
узнать, какое слово употреблялось чаще в XX веке — надо или нужно (надо почти в два раза чаще)
определить, когда говорили скучать по нём, а не скучать по нему (в 1960-е годы такие примеры еще встречаются)
увидеть, какие определения самые характерные для слова хлеб (насущный, ржаной, черствый, печеный, пшеничный)
обнаружить, какие глаголы чаще всего повторяются три раза (люблю-люблю-люблю, едем-едем-едем, говорит-говорит-говорит)
узнать, какой писатель первым употребил слово волнительный (Лев Толстой)
посмотреть, с чем рифмовали слово селедка (водка, подметка, подбородка, чётко, кроткий, лодка, сковородка, середка...)
увидеть, какие слова в XX веке ассоциировались со словом собес (загс, поликлиника, жэк, профком... — ведь тогда никто не называл так собеседование)
и многое-многое другое.

Чем поиск в НКРЯ лучше, чем просто поиск в Яндексе?

Общий объем текстов, индексируемых Яндексом и другими поисковыми системами, во много раз больше, чем объем НКРЯ. Однако поисковые системы разрабатываются для того, чтобы пользователи быстрее находили релевантную для них информацию, а не для лингвистических исследований. В поисковых системах нельзя получить точные числовые данные о том, как часто встречается определенное слово или словосочетание, нельзя искать общие конструкции, не содержащие конкретных слов, нет точной информации о том, кто, когда и где написал и опубликовал каждый текст. Корпус же предоставляет все эти возможности.

Кто собирает НКРЯ?

Национальный корпус русского языка разрабатывают два института Российской академии наук: Институт русского языка им. В. В. Виноградова и Институт проблем передачи информации им. А. А. Харкевича, в сотрудничестве с Яндексом. Кроме того, над корпусом работает большая команда лингвистов и программистов и из других организаций (см. Участники проекта)

Какие тексты входят в НКРЯ?

В НКРЯ входят тексты самых разных жанров на русском языке: проза, поэзия, драматургия, газеты, журналы, научные и технические тексты, дневники, переписка, расшифровки записей устной речи, транскрипты фильмов и др.

Какого размера НКРЯ?

Корпус постоянно пополняется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится почти два миллиарда слов.

Соответствуют ли тексты НКРЯ нормам русского языка?

Тексты отбираются в состав Национального корпуса русского языка не по принципу соответствия нормам, а с целью максимально полно отразить всё разнообразие русского языка. Поэтому в них могут встретиться и устаревшие написания, значения и конструкции, и авторские отклонения от нормы, и прямые ошибки, которые никогда не соответствовали норме — если они не были замечены редакторами и корректорами в момент изначальной публикации текстов. В современном мире не корпус текстов следует за нормой, а норма следует за корпусом: лингвисты, составители словарей и грамматик принимают решения об изменении норм, исследуя сложившуюся практику именно по материалам корпусов текстов.

Можно ли добавить свой текст к НКРЯ?

Национальный корпус русского языка разрабатывается так, чтобы он оставался сбалансированным по жанрам и типам текстов, а добавление каждого нового текста сопровождается трудоемкой работой по его разметке. Поэтому можно отправить создателям корпуса свои предложения по его пополнению, но нельзя рассчитывать, что любой предложенный текст будет автоматически добавлен в НКРЯ.

Как исправить ошибки в Корпусе?

Национальный корпус русского языка — огромный проект, и как и другие большие корпусы текстов, он не свободен от ошибок.

Ошибки могут иметь разную природу, связанную как с техническим, так и с человеческим фактором: опечатки в изначальных текстах, неверно распознанные сканы, неправильный разбор слова (например, из-за отсутствия слова в словаре или из-за ошибки алгоритма разметки), неточности в сведениях о тексте. Но не всё, что может показаться ошибкой неподготовленному пользователю, в действительности ею является. Например, в текстах с неснятой омонимией приводятся все допустимые морфологические разборы, поэтому на запрос с участием дательного падежа могут находиться формы предложного, на запрос о глаголе знать — существительное знать и т. п.

Если вы заметили ошибку в Национальном корпусе русского языка, мы будем рады, если вы сообщите нам об этом. Если ошибка встретилась в написании или разборе слова, кликните левой кнопкой мыши по этому слову и в самом низу окна грамматического разбора выберите «Сообщить об ошибке...», после чего в открывшемся окошке внизу кратко напишите, в чём заключается ошибка, и нажмите «Отправить». Если ошибка встретилась в сведениях о тексте, кликните по названию текста и в самом низу окна метатекстовых признаков выберите «Сообщить об ошибке...», после чего в окошке внизу кратко напишите, в чём заключается ошибка, и нажмите «Отправить».

Замеченная вами ошибка будет обдумана создателями корпуса и исправлена не моментально, а при ближайшей переиндексации текстов корпуса. Переиндексация производится примерно два раза в год.

Как принять участие в бета-тестировании нового функционала?

Часть функционала Национального корпуса русского языка выпускается в режиме «β» и команде разработчиков корпуса для его доработки и усовершенствования важна обратная связь от пользователей корпуса.

Рядом с таким функционалом на сайте вы увидите кнопку «Оценить». Чтобы принять участие в бета-тестировании, нажмите эту кнопку, выберите свой вариант оценки, если хотите, добавьте комментарий, который поможет понять, как можно улучшить этот функционал, и нажмите «Отправить».

Попробуйте и оцените разные варианты использования функционала - сделайте несколько запросов, задайте разные параметры, оцените работу функционала в нескольких корпусах.

Как лицензированы данные НКРЯ?

Все результаты интеллектуальной деятельности, используемые в НКРЯ и размещаемые по адресу https://www.ruscorpora.ru/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения или просмотра, ни для копирования, ни для иных видов использования в качестве текстов: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. При цитировании примеров, полученных с помощью НКРЯ, необходимо ссылаться на НКРЯ как источник примеров, а также, в случае, если пример носит бесспорно авторский характер, указывать имена авторов текста и его название.

Как связаться с создателями НКРЯ?

Проще всего написать электронное письмо по адресу: info@ruscorpora.ru

Обновлено 23.07.2024