Sie können durch die Akzentzeichen verursacht werden, wie Sie vermuten. Dieser offene Fehler scheint verwandt zu sein.
Scheint durch chinesischen Text in .whtt Titel verursacht. In manchen Fällen führt der chinesische Text dazu, dass Winhttrack in dem Ordner, in dem sich die .whtt-Datei befindet, einige müllcodierte Ordner erstellt. In diesen Fällen befinden sich in den Downloadordnern noch .html.z-Dateien und manchmal .delayed oder leere Dateien und ein Fehler mit der Meldung "Fehler beim Dekomprimieren".
Als ich es mit dem einfachen ASCII-Projektnamen für die sam-URL erneut versuchte, war es erfolgreich.
Es scheint also ein Codierungsproblem zu sein (das in einigen früheren Versionen nicht existiert).
Vorschläge:
- Versuchen Sie es mit der
--utf8-conversion
Flagge. - Wenn dies nicht funktioniert, versuchen Sie, eine frühere Version des Programms herunterzuladen (da der Bugreporter behauptet, dass einige frühere Versionen das Problem nicht aufwiesen).
Alternativ verwenden Sie
wget
stattdessen. So etwas wiewget -mkp -np -nH www.example.com/path/to/toplevel/directory/index.html
kopiert rekursiv alle Seiten, auf
index.html
die sich das Verzeichnis befindetexample.com/path/to/toplevel/directory/
. Es enthält auch alle Dateien, die zur Unterstützung dieser Dateien erforderlich sind (CSS, JS usw.).Hinweis: Wenn wget die akzentuierten Dateinamen zerstört, verwenden Sie die Option
--restrict-file-names=nocontrol
nahezu duplizierte Dateien
HTTrack (oder wget) kann nichts dagegen tun, es sei denn, Sie können festlegen, welche Dateien Sie herunterladen sollen und welche nicht.
Wenn es ein einheitliches Namensschema gibt und Sie wissen, dass Sie keine Dateien mit einem bestimmten Namen und / oder Pfad wünschen, können Sie sie mit einem Filter ausschließen.
Mit HTTrack können Dateien mithilfe von Filtern ausgeschlossen werden . Dies sind Platzhaltermuster, denen beispielsweise vorangestellt
-
wird. Der Filter-www.example.com/path/to/toplevel/directory/subdir_with_dupes/*-2.html
schließt alle Dateien im Unterverzeichnis aus
subdir_with_dupes/
, deren Name auf endet-2.html
. Es gibt verschiedene Platzhalter und Scanregeln, die in Filtern verwendet werden können. Siehe den Link oben oder die Manpage.Wenn Sie wget verwenden, können Sie Verzeichnisse mit
--exclude-directories
und Dateinamensuffixen mit--reject
(Platzhalter zulassen) ausschließen. Sie können auch einen Filter für reguläre Ausdrücke auf die gesamte URL anwenden--reject-regex
. Es gibt viele andere Möglichkeiten. Sie erhalten eine Liste mitwget --help
und Erklärungen mitman wget
.