WebMaster's Social Network

Сообщество русскоязычных вебмастеров и дорвейщиков в формате блогов - дорвеи, доргены, партнерские программы, заработок в интернете.


Dimanjy

Опрос: кому нужен сервис по добыче копипасты? Суть сервиса - даешь на вход адрес URL, на выходе ...

Опрос: кому нужен сервис по добыче копипасты?

Суть сервиса - даешь на вход адрес URL, на выходе получаешь чистый текст с заголовками (если на странице удалось его найти). По 3 копейки за запрос, к примеру.

Лайк - да, такой сервис нужен!
Дизлайк - нет, у меня и так всё это есть!

Ответы:
Dimanjy Dimanjy #124606 2018-06-14 11:35
Dimanjy, да что ж такое! У всех всё есть. Слава КПСС :))

zillingen zillingen #124607 2018-06-14 11:43
124606 Dimanjy, слава readability!)

Dimanjy Dimanjy #124608 2018-06-14 11:48
124607 zillingen, понятно, что ридабилити, но вы что ж оттуда руками что ли всё дерёте?

zillingen zillingen #124609 2018-06-14 11:55
124608 Dimanjy, я сделал так:
- отдаю скрипту ключ
- они выбирает случайный сайт из топ-15 через yandex xml
- выдирает статью плагином readability.php
- потом регулярками очищаю html(удаляю id, class и лишние теги)

вот и весь твой сервис, сделанный за пару часов на коленке))

Dimanjy Dimanjy #124611 2018-06-14 12:00
124609 zillingen, молодец! Значит не ленивый. А был бы питонщиком, сделал бы еще проще - без всякой очистки потом регулярками :)

zillingen zillingen #124612 2018-06-14 12:06
124611 Dimanjy, у меня от синтаксиса без скобок начинает рябить в глазах

Dimanjy Dimanjy #124613 2018-06-14 12:20
124612 zillingen, а я вот наоборот - до того привык, что уже в ℑavaScript забываю скобки и точки с запятой ставить :)

Dimanjy Dimanjy #124621 2018-06-14 13:33
Dimanjy, смотри-ка, сколько уже копипастеров набралось! :)

sidorka sidorka #124625 2018-06-14 13:40
Dimanjy, не взлетит вообще. Это было актуально лет 5 назад. Все кому надо уже обзавелись, а кому не надо - у них денег один хрен нет.

https://github.com/n1k0/readable-proxy

Dimanjy Dimanjy #124629 2018-06-14 14:02
124625 sidorka, я как раз 5 лет балду пропинал, а только сейчас очнулся, когда прижопило :)

schtromm schtromm #124637 2018-06-14 15:52
124609 zillingen, а этим плагином можно делать обратную задачу? То есть, получать не контент, а шаблон, в котором указано место для контента.

zillingen zillingen #124664 2018-06-14 17:32
124637 schtromm, думаю что нет. Для этого можно использовать DOMCrawler, правда придется самому написать алгоритм нахождения нужного div с контентом страницы.

Проще скачать страницу и сделать из нее шаблон в редакторе или IDE