Know-how

Was ist eine robots.txt?

Josua Dürksen 24. August 2023

Die robots.txt ist ein unverzichtbares Werkzeug im Arsenal jedes Online-Marketers. Als einfache Textdatei im Hauptverzeichnis einer Website platziert, spielt sie eine entscheidende Rolle in der Suchmaschinenoptimierung. Denn sie ermöglicht Webmastern, den Zugang von Webcrawlern zu bestimmten Teilen einer Website einfach und bequem zu steuern.

Welchen Zweck erfüllt eine robots.txt?

Die Hauptfunktion der robots.txt besteht darin, Suchmaschinen-Crawlern Anweisungen zu geben, welche Bereiche einer Website sie besuchen dürfen und welche nicht. Dies kann dazu dienen, sensible Daten zu schützen, die Serverlast zu reduzieren oder das Crawling auf für die Suchmaschine relevante Bereiche zu konzentrieren.

Wie ist eine robots.txt-Datei aufgebaut?

Die robots.txt-Datei besteht aus Gruppen von Anweisungen, die spezifizieren, welche Seiten oder Dateien ein bestimmter User-Agent (z.B. ein Suchmaschinen-Crawler) crawlen darf oder nicht.

Jede Anweisung besteht aus zwei Teilen: dem User-Agenten und der Disallow- oder Allow-Anweisung. Der User-Agent bezeichnet den Crawler einer spezifischen Suchmaschine, während die Disallow- oder Allow-Anweisung angibt, welche Bereiche der Website für diesen Crawler zugänglich sind oder nicht.

Beispiele für eine robots.txt-Datei

Beispiel 1: Zugriff auf alle Seiten erlauben

User-agent: *

Disallow:

In diesem Beispiel haben alle Webcrawler Zugriff auf alle Teile der Website. Der Disallow Befehl ist leer, was bedeutet, dass keine Bereiche der Website ausgeschlossen sind.

Beispiel 2: Zugriff auf bestimmte Seiten verbieten

User-agent: *

Disallow: /privat/

Disallow: /intern/

Hier blockieren wir den Zugriff aller Webcrawler auf die Verzeichnisse /privat/ und /intern/.

Beispiel 3: Spezifische Anweisungen für bestimmte Webcrawler

User-agent: Googlebot

Disallow: /privat/

User-agent: Bingbot

Disallow: /intern/

In diesem Fall geben wir spezifische Anweisungen für verschiedene Webcrawler. Der Googlebot hat keinen Zugriff auf das /privat/ Verzeichnis, während der Bingbot das /intern/ Verzeichnis nicht crawlen darf.

Beispiel 4: Zugriff auf alle Seiten verbieten

User-agent: *

Disallow: /

Dieses Beispiel blockiert alle Webcrawler von allen Teilen der Website. Der Disallow: / Befehl sperrt das gesamte Verzeichnis.

Was muss bei der robots.txt beachtet werden?

Es ist wichtig, dass diese Datei sorgfältig erstellt wird, um versehentliche Blockaden oder eine falsche Interpretation durch Webcrawler zu vermeiden.
Ebenso essenziell ist die stetige Aktualisierung und Pflege der robots.txt-Datei. Denn auch nach erfolgreicher Erstellung können sich Anforderungen und Prioritäten ändern.
Deshalb ist es ratsam, die Datei regelmäßig zu prüfen und gegebenenfalls anzupassen.
Denken Sie daran, dass spezifische Anweisungen in der robots.txt-Datei auf einzelne Suchmaschinen-Crawler abzielen und deren Kompatibilität beeinflussen können.
Es sollte beachtet werden, dass die „Crawl-Delay“-Anweisung, die eine Verzögerung für Crawler festlegt, von Google nicht mehr unterstützt wird.
Stattdessen müssen Anpassungen für den Googlebot über die Google Search Console erfolgen.

Ihr Partner für digitale Erfolge: Die eCommerce Werkstatt

Mit langjähriger Erfahrung und breitem Wissen in Bereichen wie E-Commerce, Online-Marketing, SEO und vielen anderen, bietet die eCommerce Werkstatt (kurz ecw) aus Bielefeld Ihnen eine umfassende Unterstützung.

Ob Sie einen Onlineshop betreiben oder planen – wir stehen Ihnen gerne zur Seite. Zögern Sie nicht, uns bei Fragen zu kontaktieren. Unsere Expertise reicht bis hin zur effektiven Verwaltung von robots.txt-Dateien, die ein Schlüsselelement für die Suchmaschinenoptimierung und die Sichtbarkeit Ihrer Website sind.

Nutzen Sie noch heute unsere Expertise und lassen Sie uns gemeinsam Ihre digitalen Ziele erreichen. Nehmen Sie jetzt Kontakt mit uns für eine unverbindliche Beratung auf.

Nehmen Sie gerne Kontakt mit uns auf.

Josua Dürksen

duerksen@ecommerce-werkstatt.de