Blockieren Sie archive.today vom Crawlen meiner Site?

Question

Blockieren Sie archive.today vom Crawlen meiner Site?

804

Kohjah Breese 2015-01-23 в 05:49

Meine Website wird von archive.today gelöscht. Diese Site ist der seriösen archive.org ähnlich, aber archive.today gehorcht nicht robots.txt, spooft einen generischen User-Agent und versucht, seine IPs zu verbergen. Die Site fährt dann fort, Ihren Inhalt wiederherzustellen und zu indizieren, dass es sich um Suchmaschinen handelt.

0

Auf [webmasters.se]: [Zugriff auf Archive.is verweigern] (http://webmasters.stackexchange.com/q/88257/17633) unor vor 8 Jahren 0

1 Antwort auf die Frage

0

Accepted Answer · 2015-01-23 05:49:33

Sie können den Crawler blockieren, indem Sie die folgenden IP-Bereiche blockieren:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Sobald Sie diese blockieren, sollte der Versuch, eine Seite mit archive.today zu indizieren, zu einer Endlosschleife auf ihrer Site führen.

Sie können es in iptables tun wie:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

Und ich stelle mir vor, dass Apache und Ngix etwas Ähnliches tun können.

Archiv besiegt:

Wenn Sie dies nicht sehen, haben sie wahrscheinlich einige neue IPs.

Blockieren Sie archive.today vom Crawlen meiner Site?

1 Antwort auf die Frage

Verwandte Probleme