Batch-Downloadseiten aus einem Wiki ohne spezielle Seiten

Question

Batch-Downloadseiten aus einem Wiki ohne spezielle Seiten

1880

Boldewyn 2009-09-10 в 12:53

Von Zeit zu Zeit finde ich im Internet einige Dokumentationen, die ich für die Offline-Verwendung meines Notebooks benötige. Normalerweise feuere ich wget an und bekomme die ganze Seite.

Viele Projekte wechseln jedoch jetzt zu Wikis. Das heißt, ich lade jede einzelne Version und jeden Link "Edit Me" herunter.

Gibt es ein Werkzeug oder eine Konfiguration in wget, so dass ich beispielsweise nur Dateien ohne Abfragezeichenfolge herunterlade oder mit einem bestimmten Regex übereinstimme?

Prost,

Übrigens: wget hat den sehr nützlichen Schalter -k, der alle In-Site-Links zu ihren lokalen Pendants konvertiert. Das wäre eine weitere Voraussetzung. Beispiel: http://example.com-Seiten abrufen . Dann müssen alle Links zu "/ ..." oder " http://example.com/ ..." so konvertiert werden, dass sie mit dem heruntergeladenen Gegenstück übereinstimmen.

2

2 Antworten auf die Frage

1

0

user10547 2009-09-11 в 05:24

Die meisten von ihnen runzeln die Stirn und Wikipedia schließt sie aktiv mit robots.txt ab. Ich würde an http://en.wikipedia.org/wiki/Special:Export bleiben

Ich weiß, dass es für den Server ziemlich anstrengend ist, aber das ist einer der Gründe, warum ich nur notwendige Dateien herunterladen möchte. Auf jeden Fall liefern manche Projekte ihre Seiten nicht in einem anderen Format als Wiki-Seiten. Boldewyn vor 15 Jahren 0

Accepted Answer · 2009-10-25 01:23:03

Von der Wget-Man-Seite:

-R rejlist - rejlist ablehnen

Geben Sie durch Kommas getrennte Listen mit Dateinamensuffixen oder Mustern an, die akzeptiert oder abgelehnt werden sollen. Wenn eines der Platzhalterzeichen *,?, [Oder] in einem Element von acclist oder rejlist erscheint, wird es als Muster und nicht als Suffix behandelt.

Das scheint genau das zu sein, was Sie brauchen.

Hinweis: Um die Belastung des Wiki-Servers zu verringern, sollten Sie die Flags -w und --random-wait betrachten.

Batch-Downloadseiten aus einem Wiki ohne spezielle Seiten

2 Antworten auf die Frage

Verwandte Probleme