wget: Deaktivieren Sie das erzwungene HTML-Retreival

678
Mike B

Wenn Sie einen rekursiven Download durchführen, gebe ich über den Parameter -R ein Muster an, das wget ablehnen soll. Wenn es sich bei dieser Datei jedoch um eine HTML-Datei handelt, lädt wget die Datei unabhängig davon, ob sie mit dem Muster übereinstimmt oder nicht.

z.B

wget -r -R "* dynamicfile *" example.com 

ruft immer noch Dateien wie example.com/dynamicfile1.html ab

Gibt es eine Möglichkeit, dies zu verhindern?

0

1 Antwort auf die Frage

0
Jarvin

Dies geschieht, da wget die HTML-Dateien verwendet, um zu wissen, wo als nächstes gescannt werden soll, wenn es durch die Webseite gecrawlt wird. Ich würde einfach lassen, dass wget seine Sache erledigt, und dann eine rm * .html macht, wenn es fertig ist, oder etwas Ähnliches.

BEARBEITEN: Das Durchführen rsync *dynamicfile* /foo/bareines zweiten Verzeichnisses ist möglicherweise eine bessere Methode, um Ihre Dateien zu filtern und nur diejenigen mit dem richtigen Namen zu behalten (vorausgesetzt, Sie möchten einige der HTML-Dateien behalten, wenn sie den richtigen Namen haben).

Ich versuche, die Datei zu filtern, da wget in einer Endlosschleife hängen bleibt, so dass dies nicht funktioniert. Mike B vor 14 Jahren 1
Sounds like your infinite loop is the true issue your trying to deal with. This is different enough that you should probably just post a new question instead asking about preventing infinite loops with wget. Jarvin vor 14 Jahren 0
You should add a depth limit to wget. This will make sure it isn't an infinite loop. Jarvin vor 14 Jahren 0