Was kann ich verwenden, um alle PDFs von einer Website herunterzuladen?

13675

Ich muss alle auf einer Website vorhandenen PDF-Dateien herunterladen. Das Problem ist, dass sie nicht auf einer einzigen Seite aufgeführt sind. Daher brauche ich etwas (ein Programm? Ein Framework?), Um die Website zu crawlen und die Dateien herunterzuladen oder zumindest eine Liste der Dateien zu erhalten. Ich habe WinHTTrack ausprobiert, konnte es aber nicht zum Laufen bringen. DownThemAll für Firefox durchsucht nicht mehrere Seiten oder ganze Websites. Ich weiß, dass es da draußen eine Lösung gibt, da ich unmöglich der erste sein konnte, dem dieses Problem begegnet ist. Was würden Sie empfehlen?

5

4 Antworten auf die Frage

10
miku
3
Michael

Google hat die Option, nur Dateien eines bestimmten Typs zurückzugeben. Kombinieren Sie dies mit der Option "Site" und Sie haben Ihren "Crawler".

Beispiel: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

1
Alistra

Verwenden Sie eine Webcrawling-Bibliothek, z. in rubin http://www.example-code.com/ruby/spider_begin.asp

0
Pablo Santa Cruz

Wenn keine Links zu PDF-Dateien vorhanden sind, hilft ein Crawler nicht und Sie haben grundsätzlich nur zwei Möglichkeiten:

  1. Besorgen Sie sich die Liste von einem anderen Ort (fragen Sie den Webmaster der Site nach einer Liste)
  2. Rufen Sie die Liste aus dem WebSite-Verzeichnis auf. Wenn sie diese Option auf ihrem Webserver deaktiviert haben, können Sie sie jedoch nicht verwenden.
Zum Schluss treffen wir uns - hi Pablo;) miku vor 13 Jahren 1