Корпус текстов — это собрание текстов в электронной форме с широкими возможностями поиска по разным параметрам.
Национальный корпус русского языка — самый первый из корпусов текстов русского языка, наиболее сбалансированный (в нем представлены тексты самых разных жанров приблизительно в той пропорции, в которой с ними сталкивается обычный носитель языка) и имеющий наибольшую академическую поддержку (разработкой корпуса занимается большая команда лингвистов).
Электронная библиотека используется для поиска литературы и ее чтения онлайн или офлайн. Корпус текстов предназначен для поиска примеров употребления слов и словосочетаний: в нем обычно невозможно ни читать, ни скачивать полные тексты. Зато все тексты корпуса снабжены лингвистической разметкой: это позволяет формулировать сложные поисковые запросы и с их помощью находить примеры, которые не получилось бы найти в электронной библиотеке.
В НКРЯ можно:
- найти самое раннее употребление слова телевидение (1915 год!)
- узнать, какое слово употреблялось чаще в XX веке — надо или нужно (надо почти в два раза чаще)
- определить, когда говорили скучать по нём, а не скучать по нему (в 1960-е годы такие примеры еще встречаются)
- увидеть, какие определения самые характерные для слова хлеб (насущный, ржаной, черствый, печеный, пшеничный)
- обнаружить, какие глаголы чаще всего повторяются три раза (люблю-люблю-люблю, едем-едем-едем, говорит-говорит-говорит)
- узнать, какой писатель первым употребил слово волнительный (Лев Толстой)
- посмотреть, с чем рифмовали слово селедка (водка, подметка, подбородка, чётко, кроткий, лодка, сковородка, середка...)
- увидеть, какие слова в XX веке ассоциировались со словом собес (загс, поликлиника, жэк, профком... — ведь тогда никто не называл так собеседование)
- и многое-многое другое.
Общий объем текстов, индексируемых Яндексом и другими поисковыми системами, во много раз больше, чем объем НКРЯ. Однако поисковые системы разрабатываются для того, чтобы пользователи быстрее находили релевантную для них информацию, а не для лингвистических исследований. В поисковых системах нельзя получить точные числовые данные о том, как часто встречается определенное слово или словосочетание, нельзя искать общие конструкции, не содержащие конкретных слов, нет точной информации о том, кто, когда и где написал и опубликовал каждый текст. Корпус же предоставляет все эти возможности.
Национальный корпус русского языка разрабатывают два института Российской академии наук: Институт русского языка им. В. В. Виноградова и Институт проблем передачи информации им. А. А. Харкевича, в сотрудничестве с Яндексом. Кроме того, над корпусом работает большая команда лингвистов и программистов и из других организаций (см. Участники проекта)
В НКРЯ входят тексты самых разных жанров на русском языке: проза, поэзия, драматургия, газеты, журналы, научные и технические тексты, дневники, переписка, расшифровки записей устной речи, транскрипты фильмов и др.
Корпус постоянно пополняется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится почти два миллиарда слов.
Тексты отбираются в состав Национального корпуса русского языка не по принципу соответствия нормам, а с целью максимально полно отразить всё разнообразие русского языка. Поэтому в них могут встретиться и устаревшие написания, значения и конструкции, и авторские отклонения от нормы, и прямые ошибки, которые никогда не соответствовали норме — если они не были замечены редакторами и корректорами в момент изначальной публикации текстов. В современном мире не корпус текстов следует за нормой, а норма следует за корпусом: лингвисты, составители словарей и грамматик принимают решения об изменении норм, исследуя сложившуюся практику именно по материалам корпусов текстов.
Национальный корпус русского языка разрабатывается так, чтобы он оставался сбалансированным по жанрам и типам текстов, а добавление каждого нового текста сопровождается трудоемкой работой по его разметке. Поэтому можно отправить создателям корпуса свои предложения по его пополнению, но нельзя рассчитывать, что любой предложенный текст будет автоматически добавлен в НКРЯ.
Национальный корпус русского языка — огромный проект, и как и другие большие корпусы текстов, он не свободен от ошибок.
Ошибки могут иметь разную природу, связанную как с техническим, так и с человеческим фактором: опечатки в изначальных текстах, неверно распознанные сканы, неправильный разбор слова (например, из-за отсутствия слова в словаре или из-за ошибки алгоритма разметки), неточности в сведениях о тексте. Но не всё, что может показаться ошибкой неподготовленному пользователю, в действительности ею является. Например, в текстах с неснятой омонимией приводятся все допустимые морфологические разборы, поэтому на запрос с участием дательного падежа могут находиться формы предложного, на запрос о глаголе знать — существительное знать и т. п.
Если вы заметили ошибку в Национальном корпусе русского языка, мы будем рады, если вы сообщите нам об этом. Если ошибка встретилась в написании или разборе слова, кликните левой кнопкой мыши по этому слову и в самом низу окна грамматического разбора выберите «Сообщить об ошибке...», после чего в открывшемся окошке внизу кратко напишите, в чём заключается ошибка, и нажмите «Отправить». Если ошибка встретилась в сведениях о тексте, кликните по названию текста и в самом низу окна метатекстовых признаков выберите «Сообщить об ошибке...», после чего в окошке внизу кратко напишите, в чём заключается ошибка, и нажмите «Отправить».
Замеченная вами ошибка будет обдумана создателями корпуса и исправлена не моментально, а при ближайшей переиндексации текстов корпуса. Переиндексация производится примерно два раза в год.
Часть функционала Национального корпуса русского языка выпускается в режиме «β» и команде разработчиков корпуса для его доработки и усовершенствования важна обратная связь от пользователей корпуса.
Рядом с таким функционалом на сайте вы увидите кнопку «Оценить». Чтобы принять участие в бета-тестировании, нажмите эту кнопку, выберите свой вариант оценки, если хотите, добавьте комментарий, который поможет понять, как можно улучшить этот функционал, и нажмите «Отправить».
Попробуйте и оцените разные варианты использования функционала - сделайте несколько запросов, задайте разные параметры, оцените работу функционала в нескольких корпусах.
Все результаты интеллектуальной деятельности, используемые в НКРЯ и размещаемые по адресу https://www.ruscorpora.ru/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения или просмотра, ни для копирования, ни для иных видов использования в качестве текстов: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. При цитировании примеров, полученных с помощью НКРЯ, необходимо ссылаться на НКРЯ как источник примеров, а также, в случае, если пример носит бесспорно авторский характер, указывать имена авторов текста и его название.
Проще всего написать электронное письмо по адресу: info@ruscorpora.ru
Обновлено 23.07.2024