Website-Seite kann mit WinHTTrack nicht kopiert / gespiegelt werden

4249
APLUS

Ich verwende Httrack zum Kopieren / Spiegeln einer Website und für ein Problem.

Ich spreche von dieser Website. Angenommen, ich möchte diese Seite mit allen internen Links abdecken (Sie können etwa Folgendes sehen: Problem 6.11, Problem 6.10 von dieser Seite). Also habe ich folgendes versucht:

  1. Geben Sie den Namen und die URL des Projekts ein:

Bildschirmfoto

  1. Set-Option kann sowohl auf und ab gehen

Website-Seite kann mit WinHTTrack nicht kopiert / gespiegelt werden

Ich habe angefangen zu spiegeln, der Vorgang ist abgeschlossen, aber wenn ich index.html durchsehe, wird die Hauptseite korrekt angezeigt. Weitere Links (sab-Seite, wie bereits erwähnt, Problem 6.11, 6.10 usw.) werden jedoch nicht angezeigt - nur der Dateinamen-Feed wird angezeigt ( versuche dich selbst zu sehen, was schief läuft)

Wie kann ich dieses Problem beheben?

0

1 Antwort auf die Frage

0
Francisco Tapia

Ich schlage vor, die FAQ zu lesen

Hier ist ein Zitat von der WinHTTrack-Website:

Frage: Einige Websites werden sehr gut erfasst, andere nicht. Warum?

Antwort: Es gibt mehrere Gründe (und Lösungen) für den Ausfall eines Spiegels. Das Lesen der Protokolldateien (und dieser FAQ!) Ist im Allgemeinen eine sehr gute Idee, um herauszufinden, was passiert ist.

Links innerhalb der Site beziehen sich auf externe Links oder Links in anderen (oder übergeordneten) Verzeichnissen, die standardmäßig nicht erfasst werden. Die Verwendung von Filtern ist im Allgemeinen DIE Lösung, da dies eine der mächtigen Optionen in HTTrack ist. Siehe die obigen Fragen / Antworten. Website-Robots.txt-Regeln verbieten den Zugriff auf mehrere Website-Teile - Sie können sie deaktivieren, jedoch nur mit größter Sorgfalt! HTTrack wird gefiltert (durch seine standardmäßige Benutzeragenten-IDentity) - Sie können die Browser-Benutzeragentenidentität in eine anonyme Identität (MSIE, Netscape ..) ändern. Verwenden Sie diese Option auch hier mit Vorsicht, da diese Maßnahme möglicherweise verwendet wurde um einen gewissen Bandbreitenmissbrauch zu vermeiden (siehe auch die Missbrauchs-FAQs!)

Es gibt jedoch Fälle, die (noch) nicht behandelt werden können:

Flash-Sites - keine vollständige Unterstützung

Intensive Java- / Javascript-Sites - möglicherweise falsch / unvollständig

Komplexe CGI mit integrierter Weiterleitung und anderen Tricks - sehr umständlich in der Handhabung und können daher Probleme verursachen

Analyseproblem im HTML-Code (Fälle, in denen die Engine getäuscht wird, z. B. durch einen falschen Kommentar (

Kommentar (->) erkannt. Seltene Fälle, können aber vorkommen. Ein Fehlerbericht ist dann in der Regel gut!

Hinweis: Bei einigen Sites kann die Einstellung der Option "Alte HTTP / 1.0-Anforderungen erzwingen" hilfreich sein, da diese Option mehr Basisanforderungen verwendet (z. B. keine HEAD-Anforderung). Dies führt zu einem Leistungsverlust, erhöht jedoch die Kompatibilität mit einigen CGI-basierten Websites.

PD. Es gibt viele Gründe, warum eine Website nicht zu 100% erfasst werden kann. Ich denke, in SuperUser sind wir sehr enthusiastisch, aber wir wollen nicht, dass eine Website entdeckt wird, welches System von hinten läuft ( es ist meine Meinung ).