Sie können versuchen, Dateien mit der
--reject
Option zu überspringen (akzeptiert auch Platzhalter):wget --reject index.html
Sie möchten dies jedoch nicht tun. Wenn Sie wget mit verwenden -r
, muss es irgendwie eine Liste der Dateien im Verzeichnis abrufen. Daher fragt wget nach der Datei index.html und analysiert den Inhalt, um Pfade zu anderen Dateien in diesem Verzeichnis zu erhalten. Wenn sich keine index.html-Datei im Ordner befindet, wird sie vom Webserver normalerweise für wget generiert - diese Datei enthält die Verzeichnisliste. Die Erstellung dieser Listendatei muss auf dem Webserver aktiviert sein - andernfalls erhält wget eine HTTP-404-Antwort und schlägt beim rekursiven Download fehl.
- Dies ist die Dateigröße in Bytes.
- Dies bedeutet, dass eine Datei nicht entfernt werden konnte (wahrscheinlich weil sie nicht an erster Stelle erstellt wurde). Haben Sie Schreibrechte für das Verzeichnis, in das Sie mit wget herunterladen?
Bearbeiten: Nach dem Testen von wget-Downloads mit --spider
und --recursive
ich habe den Unlink-Fehler reproduziert. Es scheint, dass wget den Inhaltstyp der Antwort verwendet, um zu bestimmen, ob die Datei Links zu anderen Ressourcen enthalten kann. Wenn der Inhaltstyptest fehlschlägt und die Datei nicht heruntergeladen wird, versucht wget dennoch, die temporäre Datei zu entfernen, als ob sie heruntergeladen wurde (dies ist offensichtlich, wenn wget erneut ausgeführt wird --debug
. Dies wird eindeutig angezeigt Removing file due to --spider in recursive_retrieve():
). Ich denke, Sie haben einen Fehler in Wget gefunden.