Kann eine Website zwischen einem Web-Scraper und einem legitimen Benutzer auf einer anderen Grundlage als der Geschwindigkeit des Durchlaufens unterscheiden?

306
user239457

Wenn ich die Geschwindigkeit eines Web-Scrapers auf die Geschwindigkeit eines Menschen reduzieren kann, kann dann ein Dritter zwischen ihnen unterscheiden? Welche anderen Kriterien verwenden Websites, um zwischen Benutzern und Scrapern zu unterscheiden?

0
Ist dies nicht die richtige Seite, um diese Frage zu stellen? Können Sie bitte die entsprechende Seite vorschlagen? user239457 vor 5 Jahren 0
Der Scraper hat einen Hostnamen, der auf einer bestimmten Liste steht. Es kann die Identität eines Scrapers haben, ähnlich wie bei Ihrem Browser. Es gibt viele verschiedene Möglichkeiten, einen Schaber zu identifizieren, aber dies ist in der Tat nicht der richtige Ort, um diese Frage zu stellen. LPChip vor 5 Jahren 0

1 Antwort auf die Frage

3
tripleee

Es gibt viele Kriterien eine Website könnte möglich Schaber identifizieren verwenden. Einige sind anfälliger für Fehlalarme als andere.

  • User-Agent. Viele Schaber haben einen User-Agent:Kopf, der sie schnell und zuverlässig erkennt. Viele der folgenden Merkmale können auch mit der Korrelation korreliert werden User-Agent:, um zu prüfen, ob das Verhalten des postulierten Benutzeragenten tatsächlich mit dem übereinstimmt, was von dem grafischen Browser erwartet wird, als den er erscheinen möchte.
  • IP-Bereiche. Beispielsweise ist ein Bot, der sich außerhalb des IP-Adressraums von Google oder Amazon Cloud befindet, möglicherweise automatisiert (oder ein VPN-Exit-Knoten).
  • Traversal Timing Ein trivialer Bot besucht standortinterne Links mit einer festen Verzögerung zwischen "Klicks" oder mit einer Variation, die so klein ist, dass sie sich nicht als echter Benutzer maskiert.
  • Durchquerungsauftrag Ein trivialer Bot besucht die standortinternen Links in der Reihenfolge, in der er sie entdeckt, während ein Benutzer nur eine kleine Anzahl von Links in einer weniger vorhersagbaren Reihenfolge besucht.
  • Bilddownloads Ein Benutzer, der einen grafischen Browser verwendet, zeigt etwas vorhersehbare Häufungen paralleler Verbindungen, auch abhängig von der verfügbaren Bandbreite und der Browserkonfiguration. Viele Bots rufen jedoch immer nur eine Seite auf und umgehen Grafiken möglicherweise vollständig.
  • JavaScript-Verhalten. Ein echter Browser mit aktiviertem JavaScript führt JavaScript-Nutzdaten aus. Einige kratzende Bots versuchen dies nachzuahmen, aber viele tun dies nicht und diejenigen, die oft unvollkommene Arbeit leisten.
  • Alternative Pfade. Die HTML-Quelle kann Links in Abschnitten enthalten, die in einem bestimmten Browser mit einer bestimmten Konfiguration nicht angezeigt werden. Ein trivialer Bot wird jedoch sowohl versteckte als auch exponierte Links besuchen.