Was ist eine robots.txt?

robots.txt
Die robots.txt sorgt nicht direkt für ein besseres Ranking der Webseite, dennoch ist ihr Vorhandensein wichtig. Sie definiert genau, was zu Rankingzwecken gecrawlt werden darf und was nicht.44 So kann verhindert werden, dass bestimmte Ressourcen, wie z. B.
Print-Versionen oder PDF-Dokumente zu Ranking-Zwecken indexiert werden, was zu „Keyword Kannibalisierung“ und Duplicate Content führen kann. Der Grundaufbau einer solchen robots.txt gestaltet sich folgendermaßen:

User-agent: *
Disallow: /diese_Ressource/nicht_crawlen.xy

Der User-Agent ist der „Name“ des zu blockenden Bots. Wird ein „* “ gesetzt, bedeutet dies, dass allen Crawlern der Zugriff auf „/diese_Ressource/nicht_crawlen.xy“ verwehrt sein soll.

Wird eine geblockte URL zum Beispiel von extern stark mit sehr expliziten, sehr ähnlichen und auf die URL passenden Link-Texten verlinkt, wird Google die URL in den SERPs bei entsprechenden Suchphrasen/-Keywords trotzdem ausspielen – aber ohne den eigentlichen Inhalt bewertet bzw. indexiert zu haben.

Das Crawling Ihrer robots.txt durch die Bots

Die Googlebots (eigentlich alle seriösen Crawler) versuchen bei jedem „Besuch“ einer Seite, auf die robots.txt im Wurzelverzeichnis einer Domain zuzugreifen, um zu prüfen, welche Verzeichnisse gelesen werden dürfen und welche nicht. Ist keine vorhanden, wird bei jedem versuchten Zugriff ein Fehler (404 – Datei nicht vorhanden) protokolliert. Daher sollte zumindest eine leere robots.txt vorhanden sein, damit die Fehler-Logs nicht aus diesem Grund schon „volllaufen“. Laut den aktualisierten Webmaster Guidelines von Mitte 2014 kann ein Blocken dieser Ressourcen sogar effektiv zu schlechteren Rankings führen, da eben nicht alle Inhalte „gesehen werden“ können.

Grundlegendes zur Robots.txt-Datei und zu den Befehlen

Es ist erforderlich, dass sich die robots.txt-Datei im Stammverzeichnis der Seite und nicht in einem Unterordner oder einer anderen Seite befindet. Die URL der robots.txt-Datei muss standardmäßig wie folgt aussehen:


Richtig: https://www.ihreseite.de/robots.txt
Falsch: https://www.ihreseite.de/main/robots.txt

Die Robots.txt-Datei sollte aus einfachem Text bestehen und es sollte keine andere Zeichencodierung als die UTF-8-Zeichencodierung verwendet werden. Dabei kann diese dynamische und variable Inhalte enthalten. Sie können die Datei jederzeit ändern und bearbeiten.

Verwendungszwecke von Robots.txt

Wie oben erwähnt, kann die Robots.txt-Datei für verschiedene Zwecke verwendet werden. Abgesehen davon, dass nur angegeben wird, welche Teile Ihrer Site-Suchmaschinenroboter besucht werden oder nicht, können Sie sie auch verwenden, wenn sich Ihre Site im Aufbau befindet, Änderungen am Design vorgenommen oder allgemeine Wartungsarbeiten durchgeführt werden. Wenn Sie gerade Ihre Site eingerichtet haben und die Entwurfsarbeit fortgesetzt wird oder Sie Ihr vorhandenes Design ändern und den Zugriff auf Suchmaschinen blockieren möchten, können Sie die Datei robots.txt verwenden. Vergessen Sie nach Abschluss Ihrer Arbeit nicht, die Datei zu bearbeiten und Ihre Website erneut für Suchmaschinen zu öffnen.