Wie kann ich bestimmte Websites mit wget nicht herunterladen?

346
Coloradohusky

Was ich gerade mache, ist

wget www.example.com -m --warc-file="example.com" 

Was für die meisten Websites gut funktioniert, aber für diese bestimmte Website, die ich speichere, gibt es über tausend redundante Seiten, wie z. B. www.example.com/events0f[0 Delay=event_calendar5, während das Hauptwww beibehalten wird .example.com / Veranstaltungsseite?

1
Möglicherweise möchten Sie [Umgestaltete Tags-Seite] (https://stackoverflow.blog/2011/03/24/redesigned-tags-page) lesen, bevor Sie weitere Tag-Wiki-Änderungen vornehmen. Scott vor 5 Jahren 0

1 Antwort auf die Frage

1
darnir

Wenn Sie eine relativ neuere Version von Wget verwenden (vor weniger als 6 Jahren veröffentlicht), können Sie die Optionen --accept-regexoder verwenden --reject-regex, um einen regulären Ausdruck zu verwenden und die URLs abzulehnen, die Sie wirklich herunterladen möchten.

Ich würde zum Beispiel "wget ​​www.example.com -m --warc-file" example.com "--reject-regex =" events "` `eingeben, oder? Coloradohusky vor 5 Jahren 0
Ja so ziemlich darnir vor 5 Jahren 0