В виджете Похожие слова отображаются ближайшие семантические ассоциаты слова. Коэффициент близости слов, который можно увидеть наведя мышь на слово в Облаке слов, подсчитывается с помощью моделей дистрибутивной семантики, построенных на актуальных материалах основного корпуса НКРЯ. Чем ближе значение коэффициента к 1, тем крупнее слово в Облаке слов, и тем предположительно более похожими должны быть контексты употребления этого слова на контексты употребления ключевого слова.

Текущая версия Похожих слов работает в Основном, Газетных, Обучающем и некоторых других корпусах и ограничивается выводом семантических ассоциатов той же части речи для существительных, глаголов, прилагательных и наречий. Для имен собственных, топонимов, аббревиатур и слов, имеющие нестандартные написания или редко встречающихся в корпусе, похожие слова не выводятся.
Для поиска слов-ассоциатов в НКРЯ используются обученные на текстах конкретного корпуса word2vec-модели. Для обучения использован алгоритм Continious Bag-of-Words (реализация из библиотеки gensim). Для всех моделей используется размерность вектора 300 и окно в 5 слов. Порог зависит от корпуса и составляет:
- 5 вхождений для Основного, Старорусского корпусов, корпусов «Русская классика», «От 2 до 15» и корпуса Центральных СМИ;
- 7 вхождений для корпуса Региональных СМИ;
- 10 вхождений для Обучающего корпуса.
Скачать векторные модели, обученные на данных корпусов НКРЯ, можно на странице «Нейросетевые модели НКРЯ».
В Портрете слова Основного корпуса можно изучать список слов-ассоциатов не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Если количество вхождений слова в тексты выбранного периода ниже порогового значения для корпуса, то похожие слова не выводятся.
Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот.

Виджет снабжен специальным признаком «сгенерировано НейроКРЯ». Это означает, что выделение ассоциатов происходит полностью автоматически, и в списках могут встречаться ошибки, например неправильно образованные слова, интуитивно не вполне понятные сопоставления слов.