Die robots.txt ist eine Text-Datei die im Root-Verzeichnis einer Website liegt. In ihr wird das Verhalten der Crawler / Bots geregelt.
Hinweis: Die robots.txt ist nur eine Empfehlung für den Crawler. Mit den enthaltenen Regeln ist es nicht möglich, Verzeichnisse vor ungewolltem Zugriff zu schützen. Bösartige Crawler können trotz robots.txt ohne Probleme auf die Inhalte zugreifen.
Eine Standard-robots.txt Datei in WordPress sieht wie folgt aus:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
User-agent:
- definiert welche Crawler angesprochen werden. Mit einem * werden alle Crawler gesteuert. Möchte man beispielsweise nur den Google Bot ansprechen, geht dies mit User-Agent: google
Damit werden sämtliche Bots angesprochen, die mit google* beginnen.
Disallow:
- definiert, welche Verzeichnis nicht aufgerufen, resp. gecrawlt werden sollen. Darunter fallen automatisch auch alle Unterverzeichnisse. Möchte man ein Unterverzeichnis für den Bot freigeben, kann diese mit Allow gemacht werden.
- Wir haben die Erfahrung gemacht, dass es bei einem CMS-Wechsel durchaus vorkommen kann, dass Google irgendwelche Unterverzeichnisse vom alten CMS durchsuchen möchte. Da diese nicht mehr existieren, kann der Bot dafür einfach eingeschränkt werden.
Allow:
- Im Beispiel wird die admin-ajax.php im „wp-admin“ Verzeichnis freigegeben, da zuvor das komplette Verzeichnis mit allen Dateien und Unterverzeichnissen gesperrt wurde.