Blockieren Sie archive.today vom Crawlen meiner Site?

804
Kohjah Breese

Meine Website wird von archive.today gelöscht. Diese Site ist der seriösen archive.org ähnlich, aber archive.today gehorcht nicht robots.txt, spooft einen generischen User-Agent und versucht, seine IPs zu verbergen. Die Site fährt dann fort, Ihren Inhalt wiederherzustellen und zu indizieren, dass es sich um Suchmaschinen handelt.

0
Auf [webmasters.se]: [Zugriff auf Archive.is verweigern] (http://webmasters.stackexchange.com/q/88257/17633) unor vor 8 Jahren 0

1 Antwort auf die Frage

0
Kohjah Breese

Sie können den Crawler blockieren, indem Sie die folgenden IP-Bereiche blockieren:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21 

Sobald Sie diese blockieren, sollte der Versuch, eine Seite mit archive.today zu indizieren, zu einer Endlosschleife auf ihrer Site führen.

Sie können es in iptables tun wie:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP 

Und ich stelle mir vor, dass Apache und Ngix etwas Ähnliches tun können.

Archiv besiegt:

Wenn Sie dies nicht sehen, haben sie wahrscheinlich einige neue IPs.