Search by WMSN

Чем парсите большие XML выгрузки слона?

Answers:

Делай маленькие выгрузки. Или покупай большой комп )

юзай sax

десктопным парсером, заодно пропускаю через различные фильтры и уникализирую

Роман Питерский, уникализируешь как?

one, есть наработки по синонимам для разных товарных категорий, например «аккумулятор - аккумуляторная батарея», «ПДУ - пульт дистанционного управления», «эргономическое - удобное» и т.д. Плюс очень длинные слова по каждой выборке пишутся в отдельный файл и потом проверяются на ошибочно слитные слова. Если ошибка, слова добавляются в существующие фильтры.

Роман Питерский, ясно. Спасибо за развернутый ответ! )

ползешь XMLReader - ом по файлу, захватываешь им элемент offer, передаешь его SimpleXML, им распарсиваешь этот кусок, укладываешь в базу и погнал дальше XMLReader ом следующий элемент, делаешь базе COMMIT через каждые 200 циклов. вообщем при таком раскладе за секунду в базу грузится примерно 2000 слонообъектов

skray, короче, пока буду просто делать маленькие выгрузки, потому что такой гемор пока не хочется осиливать

interweb, pastebin.com попробуй

skray, норм подгон, спасибо