Website für Dateien crawlen

Question

Website für Dateien crawlen

1119

Thomas Moors 2017-01-06 в 11:14

Hallo, ich möchte alle PDF- Dateien von http://www.allitebooks.com/ herunterladen und wget verwenden. Mein Befehl ist, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -raber ich glaube, dass er den Links zur Subdomain vorerst nicht folgen kann. Wie kann ich das Problem beheben, damit er http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies herunterlädt % 20für% 20Next% 20Generation% 20Healthcare.pdf zum Beispiel.

-1

1 Antwort auf die Frage

2

Accepted Answer · 2017-01-06 11:39:43

stuts 2017-01-06 в 11:39

Ich wollte zunächst wgeteine Lösung vorschlagen, aber bei weiterer Recherche fiel mir ein paar Dinge auf:

PDF-Dateien werden nicht unter http://www.allitebooks.com gespeichert (stattdessen unter http://files.allitebooks.com ).
Das Verzeichnis mit den PDF-Dateien lautet http://file.allitebooks.com/20170102/
Die beiden URLs von files.allitebooks, die ich erwähnt habe, liefern403 Forbidden Fehler beim Verbinden

Beim Aufrufen einer der eBook-Seiten der Website können Sie die URL für den PDF-Download-Link anzeigen. Dies kann zum Herunterladen der PDF-Datei wie folgt verwendet werden:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf

Dies ist jedoch nicht rekursiv und es gibt keine Möglichkeit zu wissen, was sich in diesem Verzeichnis befindet, ohne jeden Blogeintrag zu prüfen und die Download-Links zu kopieren.

Aber gibt es kein Tool auf der Welt, das alle Links bis zu einer bestimmten Tiefe besucht und alle Dateien herunterlädt, die mit der Erweiterung ".pdf" enden? Ich glaube es sollte eines richtig sein? Thomas Moors vor 7 Jahren 0

Es gibt definitiv Möglichkeiten, dies zu tun. In der Tat schrieb ich einen Blogbeitrag über [Rekursives Herunterladen einer Website] (http://stuts.uk/how-to-download-entire-website-with-http-form-based-authentication/). Das Problem hierbei ist nicht, dass das Tool nicht vorhanden ist, sondern dass die Website, von der Sie PDFs herunterladen möchten, so sicher ist, dass ein rekursiver Download der Website verhindert wird. stuts vor 7 Jahren 0

OK, ich schreibe dann meinen eigenen Crawler, wenn es keine Standardwerkzeuge gibt. Ich möchte einen E-Reader mit diesen E-Books füllen, um unterwegs Informationen zu haben. Thomas Moors vor 7 Jahren 0

HTTrack oder ScrapBook sind zwar in der Lage, das zu tun, wonach Sie suchen, aber sofern es sich um eine bestimmte Website handelt, können Sie nicht alle PDFs nicht interaktiv herunterladen. Ich würde vorschlagen, dass Sie ein paar eBooks finden, die Sie von der Site lesen möchten, und sie einfach manuell herunterladen. Viel Glück mit Ihrem Crawler-Programm :) Wenn Sie feststellen, dass meine Antwort dazu beigetragen hat, eine Lösung zu liefern, denken Sie bitte daran, sie als Lösung zu akzeptieren! stuts vor 7 Jahren 0

Sie stottern, ich habe es bestätigt, aber es ist keine Antwort, die mir hilft, mein Ziel zu erreichen Thomas Moors vor 7 Jahren 0

Das ist absolut verständlich, Alter. Immer noch versuchen, sich mit dem Anrufbeantworter auseinanderzusetzen! stuts vor 7 Jahren 0

Website für Dateien crawlen

1 Antwort auf die Frage

Verwandte Probleme