robots.txt

Die robots.txt ist eine der mächtigsten - und gefährlichsten - Dateien deiner Website. Ein Fehler kann deine gesamte Indexierung blockieren.

Was ist die robots.txt?

Die robots.txt ist eine Textdatei im Stammverzeichnis deiner Domain (https://example.com/robots.txt), die Crawlern Anweisungen gibt:

Welche Bereiche gecrawlt werden dürfen (Allow)
Welche Bereiche gesperrt sind (Disallow)
Wo die XML-Sitemap liegt (Sitemap)

Beispiel:

User-agent: *
Disallow: /admin/
Disallow: /checkout/
Sitemap: https://example.com/sitemap.xml

Die robots.txt ist öffentlich einsehbar - jeder kann sie aufrufen.

Warum robots.txt wichtig ist

Sie steuert das Crawl-Verhalten und damit indirekt die Indexierung:

Crawl-Budget schonen: Unwichtige Seiten ausschließen
Interne Bereiche schützen: Admin, Checkout, Duplicate-Seiten
Sitemap kommunizieren: Crawler finden wichtige URLs schneller
Staging/Dev-Umgebungen sperren: Verhindert ungewollte Indexierung

Achtung: Disallow verhindert nur Crawling, nicht Indexierung. Nutze noindex für echte Ausschlüsse.

So erstellst du eine sichere robots.txt

Basiskonfiguration:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Typische Ausschlüsse:

Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /?s=
Disallow: /*?utm_

User-Agent-spezifische Regeln: Für bestimmte Bots gelten andere Regeln (z.B. User-agent: Googlebot).

Wildcards nutzen:

* = beliebige Zeichen
$ = Ende der URL

Beispiel: Disallow: /*.pdf$ blockiert alle PDFs.

Häufige Fehler bei robots.txt

Globale Sperre aus Versehen:

Disallow: /

Diese Regel blockiert die gesamte Website - häufigster Fehler bei Launches!

Wichtige Seiten blockiert: CSS, JavaScript oder Bilder zu blockieren kann Rendering-Probleme verursachen.

robots.txt als Indexierungs-Schutz missbrauchen: Disallow verhindert Crawling, aber Google kann Seiten trotzdem indexieren (z.B. durch Backlinks).

Keine Sitemap-Referenz: Crawler müssen die Sitemap manuell finden - verschwendetes Potenzial.

Syntaxfehler: Leerzeichen, falsche Groß-/Kleinschreibung oder fehlende Zeilenumbrüche brechen Regeln.

Staging-Umgebung nicht gesperrt: Test-Seiten werden versehentlich indexiert.

Best Practices

Halte die robots.txt einfach und übersichtlich
Kommentiere Regeln für dein Team (# für Kommentare)
Teste mit Google Search Console „robots.txt-Tester"
Verlinke die Sitemap explizit
Nutze noindex statt Disallow für echte Indexierungs-Ausschlüsse
Prüfe robots.txt nach jedem Launch/Relaunch
Blockiere nur, was wirklich blockiert werden muss

Beispiel-Konfigurationen

Standard-Website:

User-agent: *
Allow: /

Disallow: /admin/
Disallow: /search?
Disallow: /*.pdf$

Sitemap: https://example.com/sitemap.xml

E-Commerce:

User-agent: *
Allow: /

Disallow: /checkout/
Disallow: /cart/
Disallow: /*?sort=
Disallow: /*?filter=

Sitemap: https://example.com/sitemap.xml

Hinweis: Prüfe deine robots.txt mit dem Robots.txt & Sitemap Checker - Fehler hier kosten Rankings. Für eine initiale Einordnung kann eine automatisierte Prüfung hilfreich sein.