Mik Foxi Mik Foxi 2015-01-02 14:56
Делаю парсер всех профилей вконтакта =) #парсер вконтакте

Ответы:
Mik Foxi Mik Foxi #30838 2015-01-02 16:55
Сделал. Однопоточный на PHP. Скорость парсинга 7000 профилей в минуту. Сохраняются параметры профиля: id, first_name, last_name, sex, city, country, status, interests, activities, music, movies, tv, books, games, about, quotes, photo_100, photo_max_orig. Если учесть что в контакте 216 млн профилей, то парситься будет недели 3. Размер собранной базы получится примерно 100 гб.

Ньюсмейкер Ньюсмейкер #30839 2015-01-02 17:02
Потом контент под дорвеи пустишь?

Mik Foxi Mik Foxi #30840 2015-01-02 17:04
Ньюсмейкер, да под что угодно. можно будет и на исходной базе сайт запустить ))) вторым проходом запустить парсер стен, ну или (под это и собираю) параметры типа статус, увлечения и т.п. Чтоб делать мешапы и генерить профиля с типа уником.

Ньюсмейкер Ньюсмейкер #30841 2015-01-02 17:04
Базой поделишься? ))) я тоже хочу поэкспериментировать.

Mik Foxi Mik Foxi #30842 2015-01-02 17:06
Ньюсмейкер, если вконтакт не забанит меня за парсинг и все спарсится до конца - поделюсь. там же еще ее нужно будет чистить, от мертвых, пустых и закрытых профилей.

Mik Foxi Mik Foxi #30843 2015-01-02 21:15
В один поток надоест ждать 3 недели. Сделал многопоточность. Сейчас по серверам раскидаю. Чтоб быстрее было.