Die robots.txt ist eine der mächtigsten - und gefährlichsten - Dateien deiner Website. Ein Fehler kann deine gesamte Indexierung blockieren.
Was ist die robots.txt?
Die robots.txt ist eine Textdatei im Stammverzeichnis deiner Domain (https://example.com/robots.txt), die Crawlern Anweisungen gibt:
- Welche Bereiche gecrawlt werden dürfen (
Allow) - Welche Bereiche gesperrt sind (
Disallow) - Wo die XML-Sitemap liegt (
Sitemap)
Beispiel:
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Sitemap: https://example.com/sitemap.xml
Die robots.txt ist öffentlich einsehbar - jeder kann sie aufrufen.
Warum robots.txt wichtig ist
Sie steuert das Crawl-Verhalten und damit indirekt die Indexierung:
- Crawl-Budget schonen: Unwichtige Seiten ausschließen
- Interne Bereiche schützen: Admin, Checkout, Duplicate-Seiten
- Sitemap kommunizieren: Crawler finden wichtige URLs schneller
- Staging/Dev-Umgebungen sperren: Verhindert ungewollte Indexierung
Achtung: Disallow verhindert nur Crawling, nicht Indexierung. Nutze noindex für echte Ausschlüsse.
So erstellst du eine sichere robots.txt
Basiskonfiguration:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Typische Ausschlüsse:
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /?s=
Disallow: /*?utm_
User-Agent-spezifische Regeln:
Für bestimmte Bots gelten andere Regeln (z.B. User-agent: Googlebot).
Wildcards nutzen:
*= beliebige Zeichen$= Ende der URL
Beispiel: Disallow: /*.pdf$ blockiert alle PDFs.
Häufige Fehler bei robots.txt
Globale Sperre aus Versehen:
Disallow: /
Diese Regel blockiert die gesamte Website - häufigster Fehler bei Launches!
Wichtige Seiten blockiert: CSS, JavaScript oder Bilder zu blockieren kann Rendering-Probleme verursachen.
robots.txt als Indexierungs-Schutz missbrauchen:
Disallow verhindert Crawling, aber Google kann Seiten trotzdem indexieren (z.B. durch Backlinks).
Keine Sitemap-Referenz: Crawler müssen die Sitemap manuell finden - verschwendetes Potenzial.
Syntaxfehler: Leerzeichen, falsche Groß-/Kleinschreibung oder fehlende Zeilenumbrüche brechen Regeln.
Staging-Umgebung nicht gesperrt: Test-Seiten werden versehentlich indexiert.
Best Practices
- Halte die robots.txt einfach und übersichtlich
- Kommentiere Regeln für dein Team (
#für Kommentare) - Teste mit Google Search Console „robots.txt-Tester"
- Verlinke die Sitemap explizit
- Nutze
noindexstattDisallowfür echte Indexierungs-Ausschlüsse - Prüfe robots.txt nach jedem Launch/Relaunch
- Blockiere nur, was wirklich blockiert werden muss
Beispiel-Konfigurationen
Standard-Website:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search?
Disallow: /*.pdf$
Sitemap: https://example.com/sitemap.xml
E-Commerce:
User-agent: *
Allow: /
Disallow: /checkout/
Disallow: /cart/
Disallow: /*?sort=
Disallow: /*?filter=
Sitemap: https://example.com/sitemap.xml
Hinweis: Prüfe deine robots.txt mit dem Robots.txt & Sitemap Checker - Fehler hier kosten Rankings. Für eine initiale Einordnung kann eine automatisierte Prüfung hilfreich sein.
