Wenn Sie eine relativ neuere Version von Wget verwenden (vor weniger als 6 Jahren veröffentlicht), können Sie die Optionen --accept-regex
oder verwenden --reject-regex
, um einen regulären Ausdruck zu verwenden und die URLs abzulehnen, die Sie wirklich herunterladen möchten.
Wie kann ich bestimmte Websites mit wget nicht herunterladen?
346
Coloradohusky
Was ich gerade mache, ist
wget www.example.com -m --warc-file="example.com"
Was für die meisten Websites gut funktioniert, aber für diese bestimmte Website, die ich speichere, gibt es über tausend redundante Seiten, wie z. B. www.example.com/events0f[0 Delay=event_calendar5, während das Hauptwww beibehalten wird .example.com / Veranstaltungsseite?
Möglicherweise möchten Sie [Umgestaltete Tags-Seite] (https://stackoverflow.blog/2011/03/24/redesigned-tags-page) lesen, bevor Sie weitere Tag-Wiki-Änderungen vornehmen.
Scott vor 5 Jahren
0
1 Antwort auf die Frage
1
darnir
Ich würde zum Beispiel "wget www.example.com -m --warc-file" example.com "--reject-regex =" events "` `eingeben, oder?
Coloradohusky vor 5 Jahren
0
Ja so ziemlich
darnir vor 5 Jahren
0
Verwandte Probleme
-
1
Pausieren Sie alle Aufgaben außer x CPU-intensiven Aufgaben
-
10
Wie kann ich die Bash-Historie durchsuchen und einen Befehl erneut ausführen?
-
2
Kann die Ausgabe eines Befehls an zwei andere Befehle weitergeleitet werden?
-
8
Benennen Sie eine Gruppe von Dateien mit einem Befehl um
-
2
Warum aktualisiert sich mein Pfad nicht * jetzt *?
-
5
Wie entferne ich einen symbolischen Link zu einem Verzeichnis?
-
8
Rette mich vor dem Kauderwelsch
-
2
Anrufen, aber keine Seite mit wget herunterladen
-
9
Wie kann ich jeder Zeile einer Textdatei eine Zeilennummer und einen Tabulator voranstellen?
-
1
Wann sollte ich Konfigurationen in .bashrc vs einfügen? .bash_profile?