Wget, ohne die gelesene Domain zu verlassen

414
Joao

Linux-Centos 6-64

Was muss ich hinzufügen, um nur die Links in der angeforderten Domäne zu lesen und nicht zu anderen Domänen zu gehen, die in der heruntergeladenen Site erwähnt werden?

Beispiel: Beim Spiegeln von site1.com wird zu site2.com weitergeleitet, da es einen Link zu site2.com in site1.com gibt

Da ich nicht weiß, welche Site2.com, Site3.com usw. er findet, fand ich nicht geeignet, um die Option zum Ausschließen von Domains zu verwenden.

Gibt es eine Option dafür, nur die Site.com-Links zu lesen?

Vielen Dank

0

1 Antwort auf die Frage

1
RedGrittyBrick

man wget sagt

 -D domain-list --domains=domain-list Set domains to be followed. domain-list is a comma-separated list of domains. Note that it does not turn on -H. 

Beachten Sie auch GNU wget Spanning Hosts sagt

Der rekursive Abruf von Wget weigert sich normalerweise, andere Hosts als den auf der Befehlszeile angegebenen zu besuchen. Dies ist eine vernünftige Standardeinstellung. Andernfalls hätte jeder Abruf das Potenzial, aus Ihrem Wget eine kleine Google-Version zu machen.

Vielleicht verwenden Sie -H aus irgendeinem Grund?

Beschränkung auf bestimmte Domains beschränken - '- D'

Mit der Option '-D' können Sie die Domänen angeben, die verfolgt werden sollen, wodurch die Rekursion nur auf die Hosts beschränkt wird, die zu diesen Domänen gehören. Das macht natürlich nur in Verbindung mit '-H' Sinn. Ein typisches Beispiel wäre das Herunterladen des Inhalts von 'www.example.com', das Zulassen von Downloads von 'images.example.com' usw.

 wget -rH -Dexample.com http://www.example.com/ 
Hallo Ziegelstein, ja, in der Tat hat das -D gefehlt, jetzt ist es ok, danke Joao vor 5 Jahren 0