wget lädt keine Dateien von Subdomains herunter

402
Rajeev

Ich möchte pdf-Dateien von einer Domain herunterladen. Einige Dateien werden in der Unterdomäne gehostet. Wie kann ich Wget-Download von Subdomains durchführen?

Beispiel: Ich versuche, Dateien von dieser Website herunterzuladen, auf der Dateien auf cache-www.belkin.com gehostet werden, während die eigentliche Website auf www.belkin.com gehostet wird. Wie könnte ich das lösen?

Der verwendete Befehl lautet:

wget -r -D www.belkin.com, cache-www.belkin.com --tries = 0 --continue -1 Ein pdf -e-Roboter = off -U mozilla http://www.belkin.com/us / support-search? q = document: rank & show = All

0
Einige Ideen - es gibt -H, aber es würde zu weit gehen. Ich glaube nicht, dass Wget Platzhalter unterstützt .. und vielleicht auch nicht Curl. Sie versuchen nur `-r -l 1 ', dh Links bis zu einer Tiefe von 1, so dass Sie grep verwenden können, um alle Links auf der Seite zu finden, und dann eine Datei mit allen gewünschten Links erhalten. Dann sind `wget -i fileofurls` und wget` -t 1 -T 5 -w 1` immer gut, um den Server nicht zu belasten und nicht vom Server gebannt zu werden. barlop vor 6 Jahren 1
Zum Beispiel habe ich Stufe 1 gegeben. Es gibt einige Anwendungsfälle, bei denen ich etwas tiefer gehen möchte. Ich habe -H versucht, aber es wird unkontrollierbar. Rajeev vor 6 Jahren 0
Ich denke, eine Möglichkeit wäre, ein Programm zu schreiben, das auf einer Seite wget, die URLs abruft, die URLs abruft, es nach URLs filtert, die sich auf der gewünschten Subdomäne befinden, und dies je nach gewünschter Tiefe wiederholt. (nicht sicher, ob dies rekursiv sein muss oder muss, anstatt iterativ zu sein, es kann ein bisschen Fummeln nötig sein, um sicherzustellen, dass es nicht in eine Endlosschleife geht und dass es alles bekommt, was Sie wollen und nicht mehr), aber sobald Sie die Programm funktioniert dann haben Sie eine Liste aller URLs, die Sie wollen, dann das Wget -i darauf. barlop vor 6 Jahren 0

0 Antworten auf die Frage