Ich schlage vor, die FAQ zu lesen
Hier ist ein Zitat von der WinHTTrack-Website:
Frage: Einige Websites werden sehr gut erfasst, andere nicht. Warum?
Antwort: Es gibt mehrere Gründe (und Lösungen) für den Ausfall eines Spiegels. Das Lesen der Protokolldateien (und dieser FAQ!) Ist im Allgemeinen eine sehr gute Idee, um herauszufinden, was passiert ist.
Links innerhalb der Site beziehen sich auf externe Links oder Links in anderen (oder übergeordneten) Verzeichnissen, die standardmäßig nicht erfasst werden. Die Verwendung von Filtern ist im Allgemeinen DIE Lösung, da dies eine der mächtigen Optionen in HTTrack ist. Siehe die obigen Fragen / Antworten. Website-Robots.txt-Regeln verbieten den Zugriff auf mehrere Website-Teile - Sie können sie deaktivieren, jedoch nur mit größter Sorgfalt! HTTrack wird gefiltert (durch seine standardmäßige Benutzeragenten-IDentity) - Sie können die Browser-Benutzeragentenidentität in eine anonyme Identität (MSIE, Netscape ..) ändern. Verwenden Sie diese Option auch hier mit Vorsicht, da diese Maßnahme möglicherweise verwendet wurde um einen gewissen Bandbreitenmissbrauch zu vermeiden (siehe auch die Missbrauchs-FAQs!)
Es gibt jedoch Fälle, die (noch) nicht behandelt werden können:
Flash-Sites - keine vollständige Unterstützung
Intensive Java- / Javascript-Sites - möglicherweise falsch / unvollständig
Komplexe CGI mit integrierter Weiterleitung und anderen Tricks - sehr umständlich in der Handhabung und können daher Probleme verursachen
Analyseproblem im HTML-Code (Fälle, in denen die Engine getäuscht wird, z. B. durch einen falschen Kommentar (
Kommentar (->) erkannt. Seltene Fälle, können aber vorkommen. Ein Fehlerbericht ist dann in der Regel gut!
Hinweis: Bei einigen Sites kann die Einstellung der Option "Alte HTTP / 1.0-Anforderungen erzwingen" hilfreich sein, da diese Option mehr Basisanforderungen verwendet (z. B. keine HEAD-Anforderung). Dies führt zu einem Leistungsverlust, erhöht jedoch die Kompatibilität mit einigen CGI-basierten Websites.
PD. Es gibt viele Gründe, warum eine Website nicht zu 100% erfasst werden kann. Ich denke, in SuperUser sind wir sehr enthusiastisch, aber wir wollen nicht, dass eine Website entdeckt wird, welches System von hinten läuft ( es ist meine Meinung ).