Об устройстве индексатора вслух.

Лет 5-7 назад я себе написал индексатор. Вполне рабочий, вполне быстрый для тогдашних потребностей. На днях понадобился - достал, отряхнул от пыли, запустил. И расстроился.

Мускул не годится под высоконагруженные проекты. Это я еще на примере piwik понял, когда пытался его у себя внедрить - он бы и меня съел, как все ресурсы сервера, если бы мог дотянуться.

Как бы я сделал индексатор теперь.

1. Хранение и обработка поступающих ссылок.
В 2018 я бы сделал через организацию очередей. Думаю особого смысла хранить каждую ссылку нет, достаточно видеть общую статистику. Для индексатора этого достаточно. Под локальную сапу так не годится, конечно.
Из того, что пробовал - beanstalk понравился. Хоть и старый, как говно мамонта, но дело свое знает и делает его хорошо, ресурсы вроде не жрет. Gearman показался не таким дружелюбным.

2. Внедрение ссылок на страницы.
Первое, что приходит в голову - внедрять скрипты в код движка. Но это не универсальный метод.
SSI - наш выбор.
Раз нгинкс такой шустрый, пусть он и обрабатывает всю логику внедрения и распределения запросов. В случае поломки или недоступности индексатора в логике работы движка сайта ничего не изменится.

3. Движок.
Получается, что индексатор по сути представляет собой обертку к серверу очередей . Ему не нужна веб-морда, по большому счету, достаточно вменяемого апи.

4. Панель управления.
В виде надстройки над апи. Простейшее приложение выйдет - авторизация, получить данные формы, обработать и отправить данные через апи на выполнение, нарисовать красивые графики покорения интернета.

Масштабируемость и нагрузки.
Должно работать на трехбаксовом впсе, но все компоненты при необходимости реально разнести по разным физическим серверам в случае необходимости - (1) серверы очередей в нужном количестве, (2) апи-движок-балансировщик-прокси, (4) веб-интерфейс.

Как-то так.

ЗЫ. Больше не буду называть Мика говнокодером. Я как увидел свою писанину пятилетней давности, сразу захотелось у Мика попросить прощения, что я над ним насмехался почем зря, и попросить дать мастер-класс по грамотному оформлению кода. Хотя я тогда с kohana писал, но это не спасло - к концу все равно скатился в «хуяк-хуяк-продакшн».
Все таки, техника в руках дикаря - груда металлолома.
Сегодня катались на великах. С друзьями детства )) Вы даже не представляете какой это кайф. Знаю что так могут единицы. Ибо обычно друзья разъезжаются по разным городам, когда взрослеют. А мы остались в одном городе ) Прокатились вечерком, пообщались. Вечер удался.
Предложение по видодоргену - сделать вместо той куцой перелинковки в сайдбаре вывод тумб. Будут больше кликать. Ну или внизу блок типа Похожие (рекомендуемые) видео с тумбами, типа как в youtube справа.
Как вы тут, наркомашки?


Это для Антона, а то проспит как я быстро умею в быстробота вгонять. У меня метод #быстробота круче чем у него.

Итак видеодорген. Было создано два дора по 2-3к страниц (заебался реально парсить, долго парсит, оч. много по каким ключам нихуя не находится). Домены дропы инфошки. Через день на 1 дропе уже было 1800+ индекса, на втором почему-то только 10 страниц вошло. На первом траф за сегодня 12 уников, траф с гугла. Хз конечно, может разгонится, но пока слабовато. У меня на Автодоре результаты и то лучше. Ну посмотрим, может разгонится, а может дроп гавно, хотя вроде норм.
в России, сливать на подписки это легально или нет? Nev Name вроде писал, что его за подписки схватили. зачем топик потерли?
Появилась IT SEO Black Idea в общем норм идея в стиле айти крутяковская но хз как норм я ее реализую )
Кто у Vertigo шаблоны покупал - изучите шаблоны на предмет вставок там картинок с сайта wmsn.biz, картинок по тем адресам уже нету, нашел доры с доменами: ds-******.ru, *.beget.tech и еще кучу.
Сделал 4 дня назад пачку из 80 доров на копипасте, сегодня решил добавить пару в яндекс вебмастер, добавил 14 сайтов везде пометка! Прикол в том что пометка есть и на домене где стаяла заглушка отдающая код 403 ! И там пометка избыток рекламы какая нах реклама!!!
Загрузить еще