Um konkrete Empfehlungen zu geben, müssen wir Ihren Code sehen. HTML-Analyse ist jedoch ein sehr schwieriges Problem. Verwenden Sie eine vorhandene Parsing-Bibliothek, und versuchen Sie nicht, eine eigene zu erstellen.
Im Allgemeinen ist es besser, Web-Crawler mithilfe der Breitensuche und nicht der Tiefensuche zu implementieren. Bei der Tiefensuche werden oftmals Aufrufe an dieselbe Domäne und denselben Pfad durchgeführt. Dies kann von Websites erkannt werden und Ihr Crawler wird möglicherweise gedrosselt oder sogar blockiert. Breitste Crawler vermeiden dies und haben mehr Möglichkeiten für Optimierungen. B. erkennen, dass zwei Standorte Kopien voneinander sind, und den langsameren Standort aufgeben.