etwas besser als httrack zum Herunterladen von Dateien?

2153
Zenet

Ich versuche, Dokumente (PDF, TIFF, Bilder) von Webseiten herunterzuladen, die Javascript und Frames enthalten. Beispiel: http://127.0.0.1/web/guest/de/websys/webArch/mainFrame.cgi

'httrack --get-files' hat keine heruntergeladen, gibt es andere Möglichkeiten, an die Sie denken können? ein anderes Programm? muss ich das programm selbst schreiben?

Danke vielmals!

0

1 Antwort auf die Frage

0
Doug Harris

Da diese URL mit "cgi" endet, würde ich vermuten, dass auf dem Server ein CGI-Skript ausgeführt wird. Dies bedeutet, dass wahrscheinlich andere Daten erwartet werden. Es gibt verschiedene Möglichkeiten, wie diese Daten abgerufen werden können

Erstens könnten diese anderen Daten von Ihrer angemeldeten Sitzung stammen. In den Dokumenten für wget finden Sie die --load-cookiesOption, anzugeben, dass die Cookie-Datei von Ihrem Browser verwendet werden soll (die Anweisungen auf meinem Computer beziehen sich auf alte Browser-Cookie-Dateiformate).

Die andere Option ist, dass POST-Daten von Ihrem Browser erwartet werden. Sie müssen herausfinden, was die Formularvariablen und -werte sind, und diese mithilfe von Wget's --post-dataoder --post-fileOptionen übergeben.

Danke für Ihre Antwort Doug, aber ich bin mir nicht sicher, was ich mit Postdaten tun muss. Können Sie mir ein Beispiel geben? Zenet vor 14 Jahren 0
Sie müssten ein Tool verwenden, um die Daten zu überprüfen, die gesendet werden, wenn Sie auf den Link in Ihrem Browser klicken. Fiddler2 ist eine gute Option, wenn Sie unter Windows arbeiten. Sobald Sie das haben, müssen Sie es so kodieren, dass es als POST-Daten weitergegeben wird. In der Wikipedia-Seite gibt es ein Beispiel für POST-Anfragen (http://en.wikipedia.org/wiki/POST_(HTTP). Doug Harris vor 14 Jahren 0