robots.txt und WordPress

robots.txt

robots.txt für WordPress – Funktionsweise, Syntax und Bedeutung 

Wer einen Internetauftritt betreibt, sollte die Datei robots.txt kennen. Mit dieser kleinen Datei lässt sich die Indexierung der eigenen Internetseiten durch die Crawler der Suchmaschinen steuern. Im folgenden Beitrag erfährst du alles nützlichen und wichtigen Informationen zur robots.txt, die du als Seitenbetreiber, WP-Admin oder SEO-Verantwortlicher brauchst. Viel Spaß und gutes Gelingen!

 

Inhaltsverzeichnis

 

 

Suchmaschinen, Crawler und die robots.txt

Sollen deine Internetseiten gefunden und in den Ergebnisseiten (SERPs – Search Engine Result Pages) der Suchmaschinen wie Google und Co angezeigt werden, müssen sie von den Webcrawlern der Suchanbieter (bspw. Googlebot) erfasst und indexiert werden. Mit Hilfe der Datei robots.txt lässt sich festlegen, welche Seiten deines Internetauftritts die Crawler indexieren dürfen. Es handelt sich um eine kleine Textdatei, die im Hauptverzeichnis der Domain abzulegen ist. Sie muss genau die Bezeichnung „robots.txt“ in Kleinbuchstaben haben (Case-sensitivity). Besucht ein Webcrawler die Domain, ruft er zunächst diese Datei auf und informiert sich, welche Seiten oder Unterverzeichnisse er in den Index aufnehmen darf und welche nicht. Ist das Crawling für bestimmte Seiten ausgeschlossen, erscheinen diese nicht in den Suchergebnissen. Darüber hinaus kann die Datei einen Verweis auf die XML-Sitemap enthalten. Durch diesen Verweis kann der Webcrawler die URL-Struktur des Internetauftritts direkt aus der Sitemap ablesen, was einige Vorteile mit sich bringen kann.
(Hier findest du außerdem die entsprechende Zusammenfassung aus unserem Help-Center)

 

Die Syntax der robots.txt

Wie Suchmaschinen-Crawler die robots.txt-Datei zu verwenden haben und welche Syntax sie besitzt, ist im Robots Exclusion Standard Protokoll (REP) definiert. Die Crawler lesen die Datei unter Beachtung der Groß- und Kleinschreibung Zeile für Zeile aus. Folgende Kommandos darf die robots.txt enthalten:

  • User-agent:
  • Disallow:
  • Allow:
  • Sitemap:

 

Die Anweisungen sind in Blöcke mit jeweils einem Kommando pro Zeile aufgeteilt. Ein Block beginnt mit dem Befehl „User-agent:“. Er legt fest, für welchen Crawler beziehungsweise Suchmaschinen-Robot die nachfolgenden Disallow- oder Allow-Kommandos gelten. Standardmäßig geht der Crawler davon aus, dass er alle Verzeichnisse und Seiten indexieren darf, die nicht durch ein Disallow-Kommando ausgenommen sind. Per „Disallow:“ sind die von der Indexierung auszuschließenden Seiten oder Unterverzeichnisse der Stammdomain benannt. „Allow:“ legt die Seiten oder Verzeichnisse fest, die gecrawlt werden dürfen. Das Allow-Kommando erlaubt beispielsweise das Crawlen einer Seite oder eines Unterordners eines Verzeichnisses, das per Disallow-Kommando von der Indexierung ausgeschlossen ist. 

Der Befehl Sitemap informiert den Robot über eine vorhandene XML-Sitemap, aus der die URL-Struktur der Website ersichtlich wird. Die Sitemap selbst kann anders als die robots.txt an einer beliebigen Stelle gespeichert und beliebig benannt sein, solange hier die entsprechende Adresse eingegeben ist.

 

Die Syntax der robots.txt-Datei kennt folgende weitere Platzhalter und Kennzeichen:

*  –  Platzhalter für Präfixe, Suffixe oder komplette Strings, die auf dieses Zeichen folgen

$  –  Platzhalter für das Zeilenende

#  –  Kennzeichen für einen nachfolgenden Kommentar (für menschliche Leser)

 


Kostenloser Speedtest CTA Box

Wie schnell ist deine WordPress Seite?

Teste jetzt kostenlos die Ladezeit deiner Webseite!

✔ Du bekommst das Testergebnis direkt per E-Mail.


 

Ein paar Konkrete Beispiele 

Nach so viel Theorie, zeigen wir dir im Folgenden drei Beispiele, anhand derer du schnell die Bedeutung und den richtigen Einsatz der Kommandos verstehst.

 

Beispiel 1:

User-agent: *

Disallow: /bilder/

Allow: /bilder/beispiele/

 

robots.txt Beispiel
Beispiel: Die Anweisungen dieser robots.txt gelten für alle Suchmaschinen

Beginnen wir mit einem ganz einfachen Beispiel. Die Anweisungen des Beispiel eins gelten aufgrund des Asterisk-Zeichens * für alle Suchmaschinen-Robots und verbieten das Crawlen des Verzeichnisses „/bilder/“. Von diesem Verbot ausgenommen ist das Unterverzeichnis „/bilder/beispiele/“.

 

 

 

Beispiel 2:

User-Agent: Googlebot

Disallow: *.bmp$

 

Sitemap: https://deine-domain.de/sitemap.xml

 

Das Beispiel zwei verbietet dem Suchmaschinen-Robot „Googlebot“ Inhalte zu crawlen, die mit der Zeichenkette „.bmp“ enden. In diesem Fall sind das alle BMP-Bilddateien. Der Sitemap-Eintrag am Ende gibt den Speicherort der XML-Sitemap für diese Domain an.

 

 

Beispiel 3:

# Block 1

User-agent: Googlebot

Disallow: /bilder/

Disallow: /musik/

# Block 2

User-agent: *

Allow: /

 

Beispiel drei zeigt eine robots.txt-Datei mit zwei Befehlsblöcken. Der erste Block gilt für den Suchmaschinen-Robot „Googlebot“ und verbietet ihm das Crawlen der Unterverzeichnisse „/bilder/“ und „/musik/“. Im zweiten Block wird allen anderen Webcrawlern erlaubt sämtliche Inhalte zu indexieren. Dieser zweite Block kann entfallen, da per Default die Erlaubnis gegeben ist, alle Inhalte zu crawlen.

 

Grenzen der Datei robots.txt

Stets im Hinterkopf behalten solltest du, dass die Vorgaben nicht bindend sind und sich die Crawler der Suchmaschinen nicht an die Anweisungen der robots.txt-Datei halten müssen. Zwar akzeptieren die gängigen Suchmaschinen wie Bing oder Google die Vorgaben der robots.txt, doch einige Suchmaschinenanbieter indexieren auch gesperrte Seiten. Zudem kann eine starke Verlinkung einzelner Seiten dazu führen, dass Google, Bing und Co eigentlich gesperrte Inhalte in ihren Index aufnehmen. Die robots.txt-Datei eignet sich daher nicht, um bestimmte Seiten vor dem Zugriff von Webcrawlern und dem Indexieren zu schützen. Sollen Webseiten zuverlässig ausgeschlossen werden, kannst du beispielsweise mit noindex-Meta-Tags (hier findest du die Anleitung in unserem Help-Center) in den HTML-Dateien arbeiten oder einzelne Seite beziehungsweise ganze Unterverzeichnisse mit einem Passwortschutz versehen. (Vielleicht auch interessant für dich: Unser Blogbeitrag zur .htaccess-Datei)

 

Die robots.txt-Datei in WordPress erstellen

Hast du selbst keine robots.txt angelegt und unter dem Stammverzeichnis der Domain gespeichert, spielt WordPress über die functions.php-Datei sie automatisch aus. Die Standard-robots.txt ist einfach gehalten und schließt lediglich Admin-Unterverzeichnisse wie „/wp-admin/“ für die Suchmaschinen-Robots von der Indexierung aus. Diese Standard-Einstellung ist zwar nützlich, doch kann es sinnvoll sein, eigene Regeln für die Indexierung festzulegen. So lassen sich weitere WordPress-Inhalte von der Indexierung ausnehmen, die nicht von der Öffentlichkeit über Suchmaschinen gefunden werden sollen. Die robots.txt kannst du manuell über einen Texteditor anlegen. Zudem gibt es zahlreiche Plug-ins, die dir das komfortable Erstellen der Datei über den WordPress-Backend erlauben. Beispielsweise bietet das beliebte SEO-Plugin Yoast unter „Werkzeuge“ Funktionen, um die Datei anzulegen und zu bearbeiten.

wordpress, yoast, robots.txt
So findest du die Datei über Yoast

 

Zur Bedeutung der robots.txt für Suchmaschinenoptimierung

Die robots.txt-Datei ist für die Suchmaschinenoptimierung wichtig. Du steuerst mit ihr das Verhalten der Suchmaschinen beim Crawlen und die Indexierung individuell. Zu starke Einschränkungen können aber dazu führen, dass wichtige Inhalte deines Internetauftritts nicht ranken und gar nicht in den SERPs auftauchen. Wenn du den Crawlern zu viel erlaubst, kann es passieren, dass Duplicate Content das Ranking deiner Seiten negativ beeinflusst. Außerdem könnten Inhalte, die gar nicht für die Allgemeinheit gedacht sind, von den Suchmaschinen indexiert werden. Jeder Webseitenadministrator und SEO-Verantwortliche sollte daher die Funktionsweise der robots.txt-Datei verstanden haben und sie gegebenenfalls individuell für den eigenen Internetauftritt anpassen. Die Erstellung der Datei erfordert die Beachtung der korrekten Syntax. Schon kleinste Fehler machen die Anweisungen unbrauchbar und die Webcrawler missachten sie in der Folge einfach. Prüfen lässt sich die Funktion der robots.txt beispielsweise über die Google Search Console (GSC). Dort sind die für das Crawling blockierten URLs und die verwendete XML-Sitemap einsehbar. Allerdings ist zu beachten, dass die Google Search Console nur Infos für die Google-Suchmaschine bietet. Für andere Suchmaschinen sind die verschiedenen Tools der jeweiligen Anbieter zu nutzen.

 

Wir hoffen, dieser Beitrag konnte dir dabei helfen, ein Verständnis von Funktionsweise und Anwendung zu erlangen und freuen uns natürlich über Kommentare und Anregungen!