Website für Dateien crawlen

1083
Thomas Moors

Hallo, ich möchte alle PDF- Dateien von http://www.allitebooks.com/ herunterladen und wget verwenden. Mein Befehl ist, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -raber ich glaube, dass er den Links zur Subdomain vorerst nicht folgen kann. Wie kann ich das Problem beheben, damit er http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies herunterlädt % 20für% 20Next% 20Generation% 20Healthcare.pdf zum Beispiel.

-1

1 Antwort auf die Frage

2
stuts

Ich wollte zunächst wgeteine Lösung vorschlagen, aber bei weiterer Recherche fiel mir ein paar Dinge auf:

Beim Aufrufen einer der eBook-Seiten der Website können Sie die URL für den PDF-Download-Link anzeigen. Dies kann zum Herunterladen der PDF-Datei wie folgt verwendet werden:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf 

Dies ist jedoch nicht rekursiv und es gibt keine Möglichkeit zu wissen, was sich in diesem Verzeichnis befindet, ohne jeden Blogeintrag zu prüfen und die Download-Links zu kopieren.

Aber gibt es kein Tool auf der Welt, das alle Links bis zu einer bestimmten Tiefe besucht und alle Dateien herunterlädt, die mit der Erweiterung ".pdf" enden? Ich glaube es sollte eines richtig sein? Thomas Moors vor 7 Jahren 0
Es gibt definitiv Möglichkeiten, dies zu tun. In der Tat schrieb ich einen Blogbeitrag über [Rekursives Herunterladen einer Website] (http://stuts.uk/how-to-download-entire-website-with-http-form-based-authentication/). Das Problem hierbei ist nicht, dass das Tool nicht vorhanden ist, sondern dass die Website, von der Sie PDFs herunterladen möchten, so sicher ist, dass ein rekursiver Download der Website verhindert wird. stuts vor 7 Jahren 0
OK, ich schreibe dann meinen eigenen Crawler, wenn es keine Standardwerkzeuge gibt. Ich möchte einen E-Reader mit diesen E-Books füllen, um unterwegs Informationen zu haben. Thomas Moors vor 7 Jahren 0
HTTrack oder ScrapBook sind zwar in der Lage, das zu tun, wonach Sie suchen, aber sofern es sich um eine bestimmte Website handelt, können Sie nicht alle PDFs nicht interaktiv herunterladen. Ich würde vorschlagen, dass Sie ein paar eBooks finden, die Sie von der Site lesen möchten, und sie einfach manuell herunterladen. Viel Glück mit Ihrem Crawler-Programm :) Wenn Sie feststellen, dass meine Antwort dazu beigetragen hat, eine Lösung zu liefern, denken Sie bitte daran, sie als Lösung zu akzeptieren! stuts vor 7 Jahren 0
Sie stottern, ich habe es bestätigt, aber es ist keine Antwort, die mir hilft, mein Ziel zu erreichen Thomas Moors vor 7 Jahren 0
Das ist absolut verständlich, Alter. Immer noch versuchen, sich mit dem Anrufbeantworter auseinanderzusetzen! stuts vor 7 Jahren 0