Sinn für die Ausgabe von wget -r

Question

Sinn für die Ausgabe von wget -r

808

deostroll 2017-01-02 в 14:42

Dies ist die Ausgabe des Tree-Befehls in einem Verzeichnis:

. |-- asdf.txt |-- asd.txt |-- fabc | |-- fbca | `-- file1.txt |-- fldr1 |-- fldr2 | `-- index.html |-- fldr3 | |-- cap.txt | `-- f01 `-- out.txt  6 directories, 6 files

Ich starte einen lokalen http-Server in diesem Verzeichnis. Als Nächstes führe ich den folgenden Befehl aus:

wget -r -nv --spider --no-parent http://localhost:3000 -o -

... und erhalten Sie folgende Ausgabe:

2017-01-02 20:07:24 URL:http://localhost:3000/ [1580] -> "localhost:3000/index.html" [1] http://localhost:3000/robots.txt: 2017-01-02 20:07:24 ERROR 404: Not Found. 2017-01-02 20:07:24 URL:http://localhost:3000/fabc/ [897] -> "localhost:3000/fabc/index.html" [1] 2017-01-02 20:07:24 URL:http://localhost:3000/fldr1/ [536] -> "localhost:3000/fldr1/index.html" [1] 2017-01-02 20:07:24 URL:http://localhost:3000/fldr2/ [0/0] -> "localhost:3000/fldr2/index.html" [1] 2017-01-02 20:07:24 URL:http://localhost:3000/fldr3/ [896] -> "localhost:3000/fldr3/index.html" [1] 2017-01-02 20:07:24 URL: http://localhost:3000/asd.txt 200 OK unlink: No such file or directory 2017-01-02 20:07:24 URL: http://localhost:3000/asdf.txt 200 OK unlink: No such file or directory 2017-01-02 20:07:24 URL: http://localhost:3000/out.txt 200 OK unlink: No such file or directory 2017-01-02 20:07:24 URL:http://localhost:3000/fabc/fbca/ [548] -> "localhost:3000/fabc/fbca/index.html" [1] 2017-01-02 20:07:24 URL: http://localhost:3000/fabc/file1.txt 200 OK unlink: No such file or directory 2017-01-02 20:07:24 URL:http://localhost:3000/fldr3/f01/ [548] -> "localhost:3000/fldr3/f01/index.html" [1] 2017-01-02 20:07:24 URL: http://localhost:3000/fldr3/cap.txt 200 OK unlink: No such file or directory Found no broken links.  FINISHED --2017-01-02 20:07:24-- Total wall clock time: 0.3s Downloaded: 7 files, 4.9K in 0s (43.4 MB/s)

Wird wget immer geschrieben index.html? Können wir das deaktivieren?
Wie lauten diese Zahlen wie 1580, 536, 0/0 usw.?
Warum sagt es unlink: No such file or directory?

0

1 Antwort auf die Frage

2

Accepted Answer · 2017-01-02 15:52:09

Sie können versuchen, Dateien mit der --rejectOption zu überspringen (akzeptiert auch Platzhalter):

wget --reject index.html

Sie möchten dies jedoch nicht tun. Wenn Sie wget mit verwenden -r, muss es irgendwie eine Liste der Dateien im Verzeichnis abrufen. Daher fragt wget nach der Datei index.html und analysiert den Inhalt, um Pfade zu anderen Dateien in diesem Verzeichnis zu erhalten. Wenn sich keine index.html-Datei im Ordner befindet, wird sie vom Webserver normalerweise für wget generiert - diese Datei enthält die Verzeichnisliste. Die Erstellung dieser Listendatei muss auf dem Webserver aktiviert sein - andernfalls erhält wget eine HTTP-404-Antwort und schlägt beim rekursiven Download fehl.

Dies ist die Dateigröße in Bytes.
Dies bedeutet, dass eine Datei nicht entfernt werden konnte (wahrscheinlich weil sie nicht an erster Stelle erstellt wurde). Haben Sie Schreibrechte für das Verzeichnis, in das Sie mit wget herunterladen?

Bearbeiten: Nach dem Testen von wget-Downloads mit --spiderund --recursive ich habe den Unlink-Fehler reproduziert. Es scheint, dass wget den Inhaltstyp der Antwort verwendet, um zu bestimmen, ob die Datei Links zu anderen Ressourcen enthalten kann. Wenn der Inhaltstyptest fehlschlägt und die Datei nicht heruntergeladen wird, versucht wget dennoch, die temporäre Datei zu entfernen, als ob sie heruntergeladen wurde (dies ist offensichtlich, wenn wget erneut ausgeführt wird --debug. Dies wird eindeutig angezeigt Removing file due to --spider in recursive_retrieve():). Ich denke, Sie haben einen Fehler in Wget gefunden.

Sinn für die Ausgabe von wget -r

1 Antwort auf die Frage

Verwandte Probleme