Robots Exclusion Standard
Der Robots Exclusion Standard (auch bekannt als robots.txt) ist ein Dateiformat mit Namenskonvention für Webserver, um Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind.
Umgesetzt wird das durch eine Textdatei namens robots.txt im Stammverzeichnis der Website. Webcrawler sollen zuerst eine Datei dieses Namens abzurufen versuchen und, sofern das gelingt, die darin niedergeschriebenen Grenzen achten. Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots.txt nicht erreicht. Der Standard ist rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen. Seriöse Webcrawler, die die Anweisungen befolgen, werden als „freundliche“ Webcrawler bezeichnet. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung. Dazu wären weitere Mechanismen notwendig, wie eine HTTP-Authentifizierung oder eine Access Control List (ACL). Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Seitenbeschreibung.
Der Robots Exclusion Standard geht auf einen Vorschlag des Entwicklers von ALIWEB im Februar 1994 zurück. Anfang Juni 2008 bekannten sich Google, Microsoft und Yahoo zu einigen Gemeinsamkeiten. Mit RFC 9309 von 2022 wurde der Robots Exclusion Standard erweitert und als Internetstandard vorgeschlagen.
2025 wurde mit Really Simple Licensing (RSL) ein technisch weiterentwickelter Nachfolger vorgestellt.
- ↑ Informationen zur robots.txt-Datei – Hilfe für Search Console. In: support.google.com. Abgerufen am 22. August 2018 (deutsch).
- ↑ Jo Bagel: robots.txt – 30 Jahre Hausregeln für Websites. In: heise online. 25. Februar 2024, abgerufen am 26. Februar 2024.
- ↑ Verbesserungen des Robots-Exclusion-Protokolls. Google-Blog Webmaster Zentrale, 10. Juni 2008.
- ↑ Everything You Wanted To Know About Blocking Search Engines. searchengineland.com, 12. Juni 2008.
- ↑ RFC: – Robots Exclusion Protocol. September 2022 (englisch).