Ich habe keine Erfahrung mit diesem Projekt, aber googeln fand ich einen, der als Scrapy bezeichnet wurde . Es ist in Python geschrieben und wird an mehreren Stellen besprochen, wie zum Beispiel:
- on StackOverflow - https://stackoverflow.com/questions/35986899/best-performance-for-scrapy . Hier wird empfohlen, Scrapy als Dämon auszuführen
scrapyd
. - Entwickeln Sie Ihren ersten Webcrawler in Python Scrapy
- Scrapy-Beispiel - Quotesbot
Der zweite Link oben zeigt auch dieses Beispiel:
from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ElectronicsSpider(CrawlSpider): name = "electronics" allowed_domains = ["www.olx.com.pk"] start_urls = [ 'https://www.olx.com.pk/computers-accessories/', 'https://www.olx.com.pk/tv-video-audio/', 'https://www.olx.com.pk/games-entertainment/' ] rules = ( Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)), callback="parse_item", follow=True),) def parse_item(self, response): print('Processing..' + response.url)
Sie können die obigen Angaben ändern, um entweder alle Ihre URLs einzubeziehen oder sie in eine separate Datei zu legen und diese Datei über Python einzulesen.
Wenn ich Sie wäre, würde ich gerne mit dem 3. Link Quotesbot beginnen, da dieses Projekt sehr unheimlich ähnlich klingt wie das, was Sie letztendlich erreichen wollen.