Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2020 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.
В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Брестской и Гродненской областей Республики Беларусь («Лингвистический иллюстративный корпус СМИ Гродненщины»), две коллекции региональных газет России с дистанцией в 20 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков «Комсомольской правды». С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.
С 2022 года в региональном корпусе в тестовом режиме доступен ряд параметров. Аналогичная разметка будет распространена на все тексты НКРЯ с неснятой омонимией, написанные на современном русском языке.
Во-первых, это поиск не только с неснятой лексико-грамматической омонимией, но и с автоматически снятой омонимией. Во всем корпусе региональной и зарубежной прессы приписаны наиболее вероятные леммы и грамматические признаки. Разметка выполнена при помощи нейросетевой модели, обучавшейся на 6-миллионном корпусе со снятой вручную омонимией. Возможны ошибки в выборе грамматических помет, а также в выборе (и облике) лемм.
Во-вторых, в региональном корпусе размечены синтаксические группы, например, типы клауз (предикативных групп), группы подлежащего и сказуемого и другие параметры. Разметка также проводилась путем обучения нейросети.
С октября 2023 года ключевые слова в текстах корпуса размечены автоматически с помощью НейроКРЯ, в основе которой лежит доработанная модель rutermextract. Одно ключевое слово может состоять из одного существительного в именительном падеже в единственном или множественном числе (праздник, переломы) либо из двусловного сочетания с главным словом-существительным (таяние снега, обычные дни, Иван Петров). В запросе пробел интерпретируется как пробел внутри словосочетания; ключевые слова разделяются запятой (логическое "и") или вертикальной линией (логическое "или"). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).