Vor einiger Zeit
konnte man die Wayback Machine noch mit einem einfachen Eintrag in der robots.txt daran hindern, die eigenen Seiten im Archiv anzuzeigen:
User-agent: ia_archiver
Disallow: /
Inzwischen funktioniert das nicht mehr.
Wie kann man also
ia_archiver blockieren?
- Man soll der Wayback Machine eine Mail an info@archive.org schicken
- Man kann natürlich versuchen, den Bot bzw. die IP Adressen zu sperren.
Hier ein Beispiel für eine .htaccess:
SetEnvIfNoCase User-Agent ^$ block_bot
SetEnvIfNoCase User-Agent "^ia_archiver" block_bot
Order Allow,Deny
Allow from all
Deny from env=block_bot
Deny from 204.236.226.210
Deny from 221.225.39.110
Deny from 34.207.98.73
Deny from 174.129.237.157
Deny from 50.19.137.190
Deny from 54.87.176.206
Deny from 174.129.228.67
Die erste Zeile steht für leere User-Agents.
Die IP-Adressen werden sich wahrscheinlich häufiger ändern, weil ia_archiver (wenigstens zum Teil) in der Cloud gehostet wird (AWS).
Lasst mich in den Kommentaren wissen, falls ihr weitere IP-Adressen oder andere Möglichkeiten kennt.