robots.txt
Die robots.txt ist eine Textdatei im Wurzelverzeichnis einer Domain, die Crawlern über Anweisungen wie Disallow und Allow mitteilt, welche Verzeichnisse oder URLs sie nicht abrufen sollen. Sie folgt dem Robots-Exclusion-Standard und ist die erste Datei, die seriöse Bots vor dem Crawlen einer Website lesen.
Wichtig ist die Abgrenzung zur Indexierungssteuerung: Die robots.txt verhindert das Crawlen, nicht zwingend die Indexierung. Eine per robots.txt gesperrte Seite kann ohne Snippet trotzdem im Index landen, wenn sie verlinkt ist. Zum Ausschluss aus dem Index dient stattdessen ein noindex. In der robots.txt lässt sich zudem die XML-Sitemap referenzieren.