Mik Foxi

Гуглил про стемминг, нашел stemwords (libstemmer-tools), на первый взгляд это круче чем #phpMorphy.

Гуглил про стемминг, нашел stemwords (libstemmer-tools), на первый взгляд это круче чем #phpMorphy.

Ответы:
one one #51686 2016-03-22 15:42
Наверное что-то хорошее...

ctac911 ctac911 #51687 2016-03-22 16:14
Для меня это как матерное предложение. Мик не засоряй ленту )

Роман Питерский Роман Питерский #51689 2016-03-22 16:30
стемминг надо юзать аккуратно, а то вместо поиска «кроссовок» выдаст «кроссовер» http://refwm.com/search.php?q=%D0%BA%D1%80%D0%BE%D1%81%D1%81%D0%BE%D0%B2%D0%BA%D0%B8

Dench Dench #51690 2016-03-22 16:40
стемминг для «кроссовки» - «кроссов». Неудивительно:)

Mik Foxi Mik Foxi #51692 2016-03-22 16:48
Роман Питерский, там пока старый вариант, тупо отрубающий у всех слов 2 последних знака.

Mik Foxi Mik Foxi #51693 2016-03-22 16:50
stemwords оказался гипертормознутым :(

Брати Гадюкіни Брати Гадюкіни #51694 2016-03-22 17:06
Mik Foxi, А чем не нравится стеммер портера?

webmaster webmaster #51695 2016-03-22 17:10
Mik Foxi, В итоге через неделю скитаний и поисков - всё будет работать через sphinx. ps: проходили и знаем :)

Брати Гадюкіни Брати Гадюкіни #51696 2016-03-22 17:16
webmaster, Да ладно. Сделает нормальній поиск и без костылей, на нативном sqlite.

Mik Foxi Mik Foxi #51697 2016-03-22 17:42
уПопаБылаСобака, да вот его прикручиваю, стиммер Портера. Сейчас еще повторно FTS4 потестирую )

Mik Foxi Mik Foxi #51698 2016-03-22 17:43
webmaster, ты не представляешь, какое наслаждение я испытываю от этих скитаний. За эти 2 суток я узнал много интересного, расширил свой кругозор ))) а тупо взять полностью готовый сфинкс я всегда успею.

Роман Питерский Роман Питерский #51701 2016-03-22 18:18
Mik Foxi, чего FTS5 не тестируешь?

Mik Foxi Mik Foxi #51703 2016-03-22 18:24
Роман Питерский, каждый час я узнаю что-то новое )))) я не знал о его существовании.

webmaster webmaster #51704 2016-03-22 18:39
Роман Питерский, sqlite ой как давно я его не использовал... перед mysql в full text search есть у sqlite какие-то преимущества? поиск с сортировкой по количеству найденных слов в названии хотя бы по миллиону строк с названиями товаров сколько занимает по времени?

webmaster webmaster #51706 2016-03-22 18:56
webmaster, Блин вы меня заинтересовали с этим FTS5... Прочел только что документацию и пару статей. Надо тестить на скорость запрос: «sqlite SELECT * FROM quotes WHERE quotes MATCH ’believe’ ORDER BY rank;» http://charlesleifer.com/blog/building-the-sqlite-fts5-search-extension/

webmaster webmaster #51707 2016-03-22 18:57
webmaster, Уже заложена некоторая релевантность скожая со сфинксом!

Mik Foxi Mik Foxi #51708 2016-03-22 19:06
webmaster, а я так и не понял, где там про релеватность.

webmaster webmaster #51709 2016-03-22 19:12
Mik Foxi, вот: https://www.sqlite.org/fts5.html#section_5_1_1 на русском о методе: https://ru.wikipedia.org/wiki/Okapi_BM25 только надо тестить и пробывать со всеми европейскими языками хотя бы...

webmaster webmaster #51710 2016-03-22 19:14
webmaster, А вообще Роман, спаисбо. Так-то об FTS5 что-то толком нигде и не написано... хотя со дня выхода уже прошло 3-4 месяца вроде ) вроде норм расширение для sqlite... там много фич добавили

Роман Питерский Роман Питерский #51712 2016-03-22 19:21
webmaster, смотрю тесты FTS3: набор из 1 млн. документов 15Gb БД - поиск по одному слову занимает 2-3 мс, по нескольким словам - 20-30 мс, по нескольким словам с маской - 200-300 мс. С FTS4, а тем более FTS5 скорость явно выше будет.