Search by WMSN

Изучаю вопросы кластеризации наткнулся на habrahabr.ru кто-нибудь изучал гугловский софт ? =)

Answers:

Уже поднимал эту тему wmsn.biz От нее только шарахаются здесь) Кластеризация - это мощный скачок вперед, но это сложно, для доров в классическом их понимании это не нужно. Прочитал статью, посмотри результаты сам, там слова с ошибками получают более высокий процент корреляции (поскольку там не указан алгоритм выведения результатов, то я думаю, что это корреляционный анализ), чем на словах без ошибок, а гугл как мы знаем не приветсвует целенаправленное продвижение запросов с ошибками. Вообще на данный момент есть много сервисов, по кластеризации фраз/запросов. В этом направлении очевидно надо копать и что-то делать, однако, тут мало понимающих это. Да и само направление - получение семантике текста на зачаточном уровне находится.

tiobitra, тут что-то вокруг да около обсуждают алгоритм работы данной утилиты https://www.quora.com/How-does-word2vec-work, пока что я не имею глубокого представления работы этих алгоритмов. Для себя я нашел решение в виде скрипта на языке R