Von http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files :
wget -r -A pdf http://www.site.com
Ich muss alle auf einer Website vorhandenen PDF-Dateien herunterladen. Das Problem ist, dass sie nicht auf einer einzigen Seite aufgeführt sind. Daher brauche ich etwas (ein Programm? Ein Framework?), Um die Website zu crawlen und die Dateien herunterzuladen oder zumindest eine Liste der Dateien zu erhalten. Ich habe WinHTTrack ausprobiert, konnte es aber nicht zum Laufen bringen. DownThemAll für Firefox durchsucht nicht mehrere Seiten oder ganze Websites. Ich weiß, dass es da draußen eine Lösung gibt, da ich unmöglich der erste sein konnte, dem dieses Problem begegnet ist. Was würden Sie empfehlen?
Von http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files :
wget -r -A pdf http://www.site.com
Google hat die Option, nur Dateien eines bestimmten Typs zurückzugeben. Kombinieren Sie dies mit der Option "Site" und Sie haben Ihren "Crawler".
Beispiel: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf
Verwenden Sie eine Webcrawling-Bibliothek, z. in rubin http://www.example-code.com/ruby/spider_begin.asp
Wenn keine Links zu PDF-Dateien vorhanden sind, hilft ein Crawler nicht und Sie haben grundsätzlich nur zwei Möglichkeiten: