Batch-Downloadseiten aus einem Wiki ohne spezielle Seiten

1863
Boldewyn

Von Zeit zu Zeit finde ich im Internet einige Dokumentationen, die ich für die Offline-Verwendung meines Notebooks benötige. Normalerweise feuere ich wget an und bekomme die ganze Seite.

Viele Projekte wechseln jedoch jetzt zu Wikis. Das heißt, ich lade jede einzelne Version und jeden Link "Edit Me" herunter.

Gibt es ein Werkzeug oder eine Konfiguration in wget, so dass ich beispielsweise nur Dateien ohne Abfragezeichenfolge herunterlade oder mit einem bestimmten Regex übereinstimme?

Prost,

Übrigens: wget hat den sehr nützlichen Schalter -k, der alle In-Site-Links zu ihren lokalen Pendants konvertiert. Das wäre eine weitere Voraussetzung. Beispiel: http://example.com-Seiten abrufen . Dann müssen alle Links zu "/ ..." oder " http://example.com/ ..." so konvertiert werden, dass sie mit dem heruntergeladenen Gegenstück übereinstimmen.

2

2 Antworten auf die Frage

1
CarlF

Von der Wget-Man-Seite:

-R rejlist - rejlist ablehnen

Geben Sie durch Kommas getrennte Listen mit Dateinamensuffixen oder Mustern an, die akzeptiert oder abgelehnt werden sollen. Wenn eines der Platzhalterzeichen *,?, [Oder] in einem Element von acclist oder rejlist erscheint, wird es als Muster und nicht als Suffix behandelt.

Das scheint genau das zu sein, was Sie brauchen.

Hinweis: Um die Belastung des Wiki-Servers zu verringern, sollten Sie die Flags -w und --random-wait betrachten.

Cool, ich habe diese Option einfach nicht gesehen. Vielen Dank. Boldewyn vor 14 Jahren 0
0
user10547

Die meisten von ihnen runzeln die Stirn und Wikipedia schließt sie aktiv mit robots.txt ab. Ich würde an http://en.wikipedia.org/wiki/Special:Export bleiben

Ich weiß, dass es für den Server ziemlich anstrengend ist, aber das ist einer der Gründe, warum ich nur notwendige Dateien herunterladen möchte. Auf jeden Fall liefern manche Projekte ihre Seiten nicht in einem anderen Format als Wiki-Seiten. Boldewyn vor 15 Jahren 0