Was kann ich verwenden, um alle PDFs von einer Website herunterzuladen?

Question

Was kann ich verwenden, um alle PDFs von einer Website herunterzuladen?

13675

2010-07-07 в 11:56

Ich muss alle auf einer Website vorhandenen PDF-Dateien herunterladen. Das Problem ist, dass sie nicht auf einer einzigen Seite aufgeführt sind. Daher brauche ich etwas (ein Programm? Ein Framework?), Um die Website zu crawlen und die Dateien herunterzuladen oder zumindest eine Liste der Dateien zu erhalten. Ich habe WinHTTrack ausprobiert, konnte es aber nicht zum Laufen bringen. DownThemAll für Firefox durchsucht nicht mehrere Seiten oder ganze Websites. Ich weiß, dass es da draußen eine Lösung gibt, da ich unmöglich der erste sein konnte, dem dieses Problem begegnet ist. Was würden Sie empfehlen?

5

4 Antworten auf die Frage

10

3

Michael 2010-07-09 в 20:07

Google hat die Option, nur Dateien eines bestimmten Typs zurückzugeben. Kombinieren Sie dies mit der Option "Site" und Sie haben Ihren "Crawler".

Beispiel: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

1

Alistra 2010-07-07 в 12:00

Verwenden Sie eine Webcrawling-Bibliothek, z. in rubin http://www.example-code.com/ruby/spider_begin.asp

0

Pablo Santa Cruz 2010-07-07 в 11:58

Wenn keine Links zu PDF-Dateien vorhanden sind, hilft ein Crawler nicht und Sie haben grundsätzlich nur zwei Möglichkeiten:

Besorgen Sie sich die Liste von einem anderen Ort (fragen Sie den Webmaster der Site nach einer Liste)
Rufen Sie die Liste aus dem WebSite-Verzeichnis auf. Wenn sie diese Option auf ihrem Webserver deaktiviert haben, können Sie sie jedoch nicht verwenden.

Zum Schluss treffen wir uns - hi Pablo;) miku vor 13 Jahren 1

Accepted Answer · 2010-07-07 11:57:39

miku 2010-07-07 в 11:57

Von http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files :

wget -r -A pdf http://www.site.com

Was kann ich verwenden, um alle PDFs von einer Website herunterzuladen?

4 Antworten auf die Frage

Verwandte Probleme