Teilen

Inhalt

Was ist eine Robots.txt Datei?

robots.txt ist eine Datei, die auf dem Wurzelverzeichnis deiner Website gespeichert wird und Suchmaschinen wie Google, Bing oder Yahoo sagt, welche Teile deiner Website gecrawlt werden dürfen und welche nicht. Mit anderen Worten: Es ist eine Art Wegweiser für Suchmaschinen, um herauszufinden, welche Seiten und Inhalte sie indexieren können und welche nicht.

Die robots.txt-Datei enthält Anweisungen für die sogenannten „Robots“ (auch Crawler genannt) der Suchmaschinen, die den Inhalt deiner Website durchsuchen und analysieren. Die Anweisungen in der Datei geben an, welche Seiten von den Suchmaschinen gecrawlt werden dürfen und welche nicht. Wenn Suchmaschinen auf eine Seite oder einen Ordner deiner Website stoßen, die von der robots.txt-Datei ausgeschlossen sind, werden sie diese nicht indexieren und in den Suchergebnissen nicht anzeigen.

Details zur Funktionsweise

Grundlegende Struktur: Die robots.txt Datei besteht aus Gruppen von Anweisungen. Jede Gruppe besteht aus mindestens einem User-agent-Eintrag, gefolgt von mehreren Disallow– oder Allow-Einträgen.

User-agent: Dieser Eintrag gibt an, für welchen Web-Crawler die nachfolgenden Anweisungen gelten. Der Wert * steht für alle Crawler. Spezifische Crawler können mit ihrem Namen angegeben werden, z.B. Googlebot für den Google Web-Crawler.

Disallow: Mit diesem Eintrag können Sie Crawlern den Zugriff auf bestimmte Teile Ihrer Website verbieten. Wenn Sie z.B. nicht möchten, dass ein Crawler auf Ihr Verzeichnis /verboten/ zugreift, würden Sie Disallow: /verboten/ verwenden.

Allow: Obwohl dies nicht im ursprünglichen Protokoll enthalten war, verwenden viele moderne Crawler den Allow-Eintrag, um den Zugriff auf bestimmte Teile einer ansonsten gesperrten Ressource zu erlauben.

Sitemap: In der robots.txt Datei können Sie auch auf die Sitemap Ihrer Website verweisen, damit Crawler wissen, wo sie die Sitemap finden können. Dies geschieht mit dem Eintrag Sitemap:, gefolgt von der URL zur Sitemap.

Kommentare: Sie können Kommentare in Ihrer robots.txt Datei hinzufügen, indem Sie eine Zeile mit einem # beginnen. Crawler ignorieren solche Zeilen.

Beachtung der Anweisungen: Es ist wichtig zu wissen, dass die robots.txt Datei eine „Freundliche Bitte“ und keine erzwungene Regel ist. Einige böswillige Crawler könnten die Anweisungen in der robots.txt Datei ignorieren.

Effektivität: Während die robots.txt Datei verhindern kann, dass Crawler bestimmte Seiten besuchen, verhindert sie nicht, dass diese Seiten über andere Quellen (z.B. externe Links) in Suchmaschinenindizes erscheinen.

Case-Sensitivity: Das Protokoll für robots.txt ist case-sensitive. Dies bedeutet, dass /Verboten/ und /verboten/ als unterschiedliche Pfade behandelt werden.

Testen: Es ist eine gute Praxis, Ihre robots.txt Datei in den Webmaster-Tools von Suchmaschinen (z.B. Google Search Console) zu testen, um sicherzustellen, dass sie korrekt funktioniert.

Wo sollte die robots.txt Datei platziert werden?

Die robots.txt Datei sollte im Hauptverzeichnis einer Website platziert werden, also beispielsweise unter https://beispiel.de/robots.txt.

Aufrufen der robots.txt

Über den Browser gibst du die entsprechende URL ein: https://deineURL.de/robots.txt

Beispiele

User-agent: *
Disallow: /privat/
Disallow: /geheim/

In diesem Beispiel würde jedem Roboter (angegeben durch den User-agent: *) der Zugriff auf die Verzeichnisse /privat/ und /geheim/ verwehrt.

Hier die Robots.txt vom ZDF Online-Auftritt.

Robots.txt
robots.txt

Können mehrere User-agents in einer robots.txt Datei spezifiziert werden?

Ja, es können mehrere User-agent Einträge in einer robots.txt Datei existieren, um spezifische Anweisungen für verschiedene Crawler bereitzustellen.

Ist die robots.txt Datei verpflichtend?

Nein, die robots.txt Datei ist nicht verpflichtend. Wenn sie jedoch fehlt, könnten einige Crawler alle Inhalte der Website durchsuchen.

Kann die robots.txt Datei verhindern, dass Inhalte in Suchmaschinen erscheinen?

Obwohl die robots.txt Datei Crawlern mitteilt, welche Seiten nicht gecrawlt werden sollen, garantiert sie nicht, dass diese Seiten nicht in den Suchergebnissen erscheinen. Es ist besser, andere Methoden wie Meta-Tags oder HTTP-Header zu verwenden, um Inhalte aus Suchmaschinen zu entfernen.

Was passiert, wenn ich Fehler in meiner robots.txt mache?

Fehler in der robots.txt Datei können dazu führen, dass Suchmaschinenroboter wichtige Seiten nicht crawlen oder unerwünschte Seiten crawlen. Es ist daher wichtig, die Datei sorgfältig zu überprüfen.

Bedeutung für SEO

Die Verwendung von robots.txt kann sich auf die Suchmaschinenoptimierung (SEO) auswirken, da sie dazu beitragen kann, dass Suchmaschinen nur relevante Seiten crawlen und indexieren. Dadurch wird vermieden, dass Suchmaschinen Ressourcen für das Crawling und die Indexierung von nicht relevanten Seiten verschwenden und die Suchergebnisse für die Nutzer relevanter und genauer werden.

Quellen

Definition robots.txt

 
« Zurück zum Glossar Index