Robots Exclusion Standard
Der Robots Exclusion Standard (auch bekannt als robots.txt) ist ein Dateiformat mit Namenskonvention für Webserver, um bestimmten Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind. Umgesetzt wird das durch eine Textdatei namens robots.txt
im Stammverzeichnis der Website. Webcrawler sollen zuerst eine Datei dieses Namens abzurufen versuchen, und sofern das gelingt darin niedergeschriebene Grenzen achten.
Webmaster haben so keineswegs die Möglichkeit, ausgesuchte Bereiche ihrer Website für (bestimmte) Suchmaschinen zu sperren. Der Standard ist rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung; dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.
Der Robots Exclusion Standard geht auf einen Vorschlag des Entwicklers von ALIWEB im Februar 1994 zurück. Anfang Juni 2008 bekannten sich Google, Microsoft und Yahoo zu einigen Gemeinsamkeiten. Mit RFC 9309 von 2022 wurde der Robots Exclusion Standard erweitert und als Internetstandard vorgeschlagen.
Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots.txt nicht erreicht, auch wenn seriöse Webcrawler die Anweisungen befolgen.