Search by WMSN

Делаю парсер всех профилей вконтакта =) #парсер вконтакте

Answers:

Сделал. Однопоточный на PHP. Скорость парсинга 7000 профилей в минуту. Сохраняются параметры профиля: id, first_name, last_name, sex, city, country, status, interests, activities, music, movies, tv, books, games, about, quotes, photo_100, photo_max_orig. Если учесть что в контакте 216 млн профилей, то парситься будет недели 3. Размер собранной базы получится примерно 100 гб.

Потом контент под дорвеи пустишь?

Ньюсмейкер, да под что угодно. можно будет и на исходной базе сайт запустить ))) вторым проходом запустить парсер стен, ну или (под это и собираю) параметры типа статус, увлечения и т.п. Чтоб делать мешапы и генерить профиля с типа уником.

Базой поделишься? ))) я тоже хочу поэкспериментировать.

Ньюсмейкер, если вконтакт не забанит меня за парсинг и все спарсится до конца - поделюсь. там же еще ее нужно будет чистить, от мертвых, пустых и закрытых профилей.

В один поток надоест ждать 3 недели. Сделал многопоточность. Сейчас по серверам раскидаю. Чтоб быстрее было.