Search by WMSN

На чем замутить полнотекстовый поиск по гипербольшой (50 млн строк и более) базе? Чтоб работал быстро с минимумом нагрузок и ресурсов. Изучаю разные типы баз. Потрогал #PostgreSQL, грустно, #MongoDB - вообще какая-то хуйня, которая быстро работает только когда полностью в оперативке, #MySQL FULLTEXT - ресурсов надо пиздец. Сейчас изучаю 2 направления - делать свой костыль с #SQLite, есть наброски, вроде работает более менее норм, но надо еще думать и тестить на реально больших базах. И наверное буду изучать Sphinx и т.п. готовые поисковые движки...

Answers:

Sphinx нормально, я пробовал. Толко на русском инфы маловато. А ты где базы такие брать собрался?

Использую Сфинкс на проекте, где нужен поиск по очень большой базе. Впечатления только положительные. В целом Сфинкс не особо сложен, прописал конфиг, сгенерил индекс, подключил API и все работает надежно и стабильно. Скорость впечатляет. Крайне рекомендую.

Фарадей, контент базы - товары всех товарных партнерок. Чтоб взять выгрузки отовсюду и искать дором делая запросы к своей базе, а не к апи партнерок. Т.к. поиска по товарам почти ни у какой партнерки нету, а у слона количество запросов в единицу времени ограничено, медленно парсится, медленно доры наполняются.

Не надо идти стандартными путями. Пиши свой поисковый движок.

Mik Foxi, интересные ты задачи находишь)

Фарадей, да я люблю изобретать свои велосипеды )

LIKE %запрос%

Atom, зачем ты спалил мой поисковый алгоритм? )))

SPHINX, однозначно. Других вариантов нет. )

webmaster, это слишком просто и не спортивно )))

Mik Foxi, но других вариатнов нет. Своё изобретать долго.
Mysql fulltext boolean mode поиск по базе 1,5-2 млн торрент файлов только по названиям будет занимать до 6 секунд, в зависимости от кол-ва найденного по всем словам в запросе. (VPS: 1 ядро процессора XEON E5)
А sphinx - единственное решение в OPENSOURCE для подобных вещей...

webmaster, пока поизобретаю своих алгоритмов и скриптов, если через пару дней ничего не получится - наверное буду юзать sphinx.

webmaster, есть еще ElasticSearch

Откуда 50 лямов строк то? Товаров в слоне и адмитаде только не наберётся вместе взятых. И у амазона то меньше)

Ded, это я примерно. Вдруг наберется )