Es gibt viele Kriterien eine Website könnte möglich Schaber identifizieren verwenden. Einige sind anfälliger für Fehlalarme als andere.
- User-Agent. Viele Schaber haben einen
User-Agent:
Kopf, der sie schnell und zuverlässig erkennt. Viele der folgenden Merkmale können auch mit der Korrelation korreliert werdenUser-Agent:
, um zu prüfen, ob das Verhalten des postulierten Benutzeragenten tatsächlich mit dem übereinstimmt, was von dem grafischen Browser erwartet wird, als den er erscheinen möchte. - IP-Bereiche. Beispielsweise ist ein Bot, der sich außerhalb des IP-Adressraums von Google oder Amazon Cloud befindet, möglicherweise automatisiert (oder ein VPN-Exit-Knoten).
- Traversal Timing Ein trivialer Bot besucht standortinterne Links mit einer festen Verzögerung zwischen "Klicks" oder mit einer Variation, die so klein ist, dass sie sich nicht als echter Benutzer maskiert.
- Durchquerungsauftrag Ein trivialer Bot besucht die standortinternen Links in der Reihenfolge, in der er sie entdeckt, während ein Benutzer nur eine kleine Anzahl von Links in einer weniger vorhersagbaren Reihenfolge besucht.
- Bilddownloads Ein Benutzer, der einen grafischen Browser verwendet, zeigt etwas vorhersehbare Häufungen paralleler Verbindungen, auch abhängig von der verfügbaren Bandbreite und der Browserkonfiguration. Viele Bots rufen jedoch immer nur eine Seite auf und umgehen Grafiken möglicherweise vollständig.
- JavaScript-Verhalten. Ein echter Browser mit aktiviertem JavaScript führt JavaScript-Nutzdaten aus. Einige kratzende Bots versuchen dies nachzuahmen, aber viele tun dies nicht und diejenigen, die oft unvollkommene Arbeit leisten.
- Alternative Pfade. Die HTML-Quelle kann Links in Abschnitten enthalten, die in einem bestimmten Browser mit einer bestimmten Konfiguration nicht angezeigt werden. Ein trivialer Bot wird jedoch sowohl versteckte als auch exponierte Links besuchen.