Zuweisen einer unterschiedlichen IP beim Crawlen von Webseiten

1384
Mounarajan

Wie kann ich beim Crawlen verschiedene IP-Adressen zuweisen?

Ich krieche jeden Tag Milliarden von Seiten (die Zuweisung einer anderen IP-Adresse hilft beim Blockieren)

2
Sie können versuchen, verschiedene Proxys für Ihre Anforderungen zu verwenden. Ben vor 8 Jahren 1
@Ben Könnten Sie mir bitte ein Beispiel geben? Mounarajan vor 8 Jahren 0
Es hängt davon ab, wie Sie Milliarden von Websites crawlen. Möglicherweise bietet Ihr Website-Crawler diese Option an. Sie sollten weitere Informationen zu Ihrem Crawler bereitstellen. Ben vor 8 Jahren 0
Ich verwende wget und curl, um eine Webseite herunterzuladen, und reguläre Ausdrücke, um Daten aus der Download-Webseite zu extrahieren (so baue ich Web-Crawler). Mounarajan vor 8 Jahren 0
Ein Beispiel finden Sie hier: http://stackoverflow.com/questions/11211705/setting-proxy-in-wget. Dann müssen Sie ein Skript oder ein kleines Tool erstellen, das eine Liste von Proxys durchläuft und sie für jedes Wget festlegt. Ben vor 8 Jahren 0

1 Antwort auf die Frage

0
ajimix

Sie haben verschiedene Möglichkeiten, verschiedene IPs zu verwenden. Normalerweise müssen Sie nur einen Proxy verwenden. Ich empfehle Ihnen in der Regel ein gutes VPN, mit dem Sie problemlos die Verbindung zwischen den Servern wechseln können. Auf diese Weise können Sie leicht unterschiedliche IPs verwenden, sobald sie blockiert werden.

In der Regel beginnen Sie mit dem Crawlen. Sobald die IP-Adresse blockiert ist, können Sie vom VPN zu einem anderen Server wechseln und erneut mit dem Crawlen beginnen.

Stellen Sie nur sicher, dass der VPN-Anbieter dies zulässt, da einige dies nicht tun.

Die andere Option ist die Verwendung eines Proxy für Crawler. Dies ist ein Dienst, der Ihnen einen Endpunkt bietet, den Sie anrufen können und der Ihnen immer eine Antwort gibt. Auf diese Weise müssen Sie sich nicht um IPs, Blockaden, Grenzwerte usw. kümmern.

Bisher kenne ich zwei Dienste Proxycrawl und Crawlera, ich habe beide verwendet und sie sind wirklich gut, Proxycrawl ist billiger und schneller als das andere. Ich schlage vor, dass Sie beide ausprobieren und diejenige verwenden, die besser zu Ihnen passt.