Httrack-Filterlinks mit bestimmten Mustern

1228
user1812076

Ich versuche, httrack zu verwenden, um ein gesamtes Webarchiv von archive.org herunterzuladen. Die Idee ist, nur die Archiv-Links (so viele wie möglich) herunterzuladen, aber nur die Links, die wirklich aus dem Archiv stammen, nicht von der aktuellen Website. Mit anderen Worten, ich möchte nur die Links herunterladen, die dieses Muster enthalten:

/web/[archive_timestamp]/[website]/* 

Hier ist ein Beispiel

Hier ist ein Archivlink: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/

Um die benötigten Links herunterzuladen, verwende ich diesen Befehl:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/* 

Dies sollte bedeuten, alle Links zu filtern (alle zu deaktivieren) und nur diejenigen zu aktivieren, die / web / 20011209181356 / http://www.emag.ro/ enthalten.

Der Befehl lädt nur die Homepage herunter, also mache ich etwas falsch.

Wenn jemand eine Idee hat, wie er dieses Problem lösen kann (außer beim Erstellen eines eigenen Schabers - versucht, dies zu vermeiden, um Zeit zu sparen), auch mit einem anderen Tool, das ich von der Befehlszeile aus verwenden kann und auch unter Windows funktioniert.

0

1 Antwort auf die Frage

1
Brett

Sie waren sich sehr nahe - Sie mussten lediglich den Domänennamen wie folgt zu Ihrer Überprüfungsregel hinzufügen:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/* 

Oder Sie erhalten alle archivierten Versionen dieser Domäne, die Sie verwenden könnten:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/* 

Dann möchten Sie jedoch die Durchquerung in der gesamten Domäne aktivieren, indem Sie diese Befehlszeilenoptionen verwenden (oder diese in der GUI unter "Nur Experten" festlegen).

B ... kann die Verzeichnisstruktur
d ... nach oben und unten verschieben, bleibt jedoch in derselben Hauptdomäne

Siehe den Screenshot unten. Wolltest du das erreichen?

Heruntergeladene Seiten