Verwendung von wget parallel, da es nicht multithreading ist
Ich muss rund 1M Webseiten herunterladen. Ich habe ihre direkten URLs (in der Datenbank, aber ich kann sie an anderer Stelle in jede Art von Speicher, Datenbank oder Datei einfügen).
Ich habe wget ausprobiert, aber ich möchte wget nicht in den Hintergrund stellen und mit einem Kontrollskript umwickeln, das die Anzahl der Prozesse steuert, sodass ich meinen Crawler-Server nicht durcheinanderbringe.
Ich habe gelesen, dass der BUbiNG-Crawler 1200 Anforderungen pro Sekunde für eine einzelne Box ausführen kann und als Crawler konzipiert ist, sodass er URLs zwischen Threads weitergibt. Ich möchte das nicht - ich habe bereits direkte URLs.
Ich muss Weiterleitungen folgen, da ich nur Domänen ohne Wissen habe, wenn Weiterleitungen zu folgen sind.
Irgendwelche Tipps, Ratschläge oder heiße Wege, um das zu lösen? Soll ich dafür meine eigene Software schreiben (ich möchte das Rad nicht neu erfinden, wie ich es gesagt habe).
BEARBEITEN: Entschuldigung für "Meinungs" -basierte Lösung - Ich wollte nicht, dass dieses Thema auf einer Meinung basiert.
Ich habe die beste und eleganteste Lösung gefunden mit:
parallel
Befehlszeilenprogramm. Jetzt kann ich wget parallel verwenden und das war der schnellste und einfachste Weg.
0 Antworten auf die Frage
Verwandte Probleme
-
3
IE unter Windows 7 speichert keine Dateien auf der Festplatte
-
3
Computer herunterfahren, wenn der Download / Upload beendet ist
-
4
Wo kann ich viele Ziffern von Pi herunterladen?
-
4
Konfigurieren Sie das Modem für Bittorrent-Downloads
-
3
Firefox: Warum ist es langsam, wenn ich einige aktive Downloads habe?
-
2
Anrufen, aber keine Seite mit wget herunterladen
-
17
Wie kann ich eine URL als Datei herunterladen?
-
19
Wie kann ich eine komplette Website herunterladen?
-
4
Warum zwingt Microsoft Benutzer, nicht standardmäßige Download- / Installationslösungen zu verwenden...
-
7
URL Sniffer / Downloader