Wayback Machine (ia_archiver) blocken

Vor einiger Zeit

konnte man die Wayback Machine noch mit einem einfachen Eintrag in der robots.txt daran hindern, die eigenen Seiten im Archiv anzuzeigen:

User-agent: ia_archiver
Disallow: /

Inzwischen funktioniert das nicht mehr.

Wie kann man also

ia_archiver blockieren?

  • Man soll der Wayback Machine eine Mail an info@archive.org schicken
  • Man kann natürlich versuchen, den Bot bzw. die IP Adressen zu sperren.

Hier ein Beispiel für eine .htaccess:

SetEnvIfNoCase User-Agent ^$ block_bot
SetEnvIfNoCase User-Agent "^ia_archiver" block_bot

Order Allow,Deny
Allow from all
Deny from env=block_bot
Deny from 204.236.226.210
Deny from 221.225.39.110
Deny from 34.207.98.73
Deny from 174.129.237.157
Deny from 50.19.137.190
Deny from 54.87.176.206
Deny from 174.129.228.67

Die erste Zeile steht für leere User-Agents.

Die IP-Adressen werden sich wahrscheinlich häufiger ändern, weil ia_archiver (wenigstens zum Teil) in der Cloud gehostet wird (AWS).

Lasst mich in den Kommentaren wissen, falls ihr weitere IP-Adressen oder andere Möglichkeiten kennt.