Inhaltsverzeichnis
robots.txt und Meta-Robots-Tags steuern, was Suchmaschinen sehen — und was nicht. Beide Werkzeuge gehören zum Fundament des technischen SEO und werden in der Praxis erstaunlich oft falsch eingesetzt. Auch bei technisch versierten Hidden Champions zwischen Karlsruher Forschungslandschaft und Heilbronner Maschinenbau-Cluster sehen wir regelmäßig Konfigurationen, die wertvolle Seiten unbeabsichtigt vom Index ausschließen oder unwichtige Bereiche durch das Crawl-Budget brennen.
Was die robots.txt ist
Eine einfache Textdatei im Stammverzeichnis Ihrer Domain (https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche sie besuchen dürfen.
Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine via robots.txt blockierte Seite kann trotzdem im Index landen, wenn externe Backlinks darauf zeigen.
# Minimal-robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /
Sitemap: https://www.beispiel.de/sitemap.xml
Syntax im Detail
User-agent
# Alle Crawler
User-agent: *
Disallow: /intern/
# Nur Googlebot
User-agent: Googlebot
Disallow: /tmp/
# Nur Bingbot
User-agent: Bingbot
Disallow: /archiv/
Spezifische User-agent-Regeln haben Vorrang vor allgemeinen.
Allow und Disallow
User-agent: *
Disallow: /admin/
Allow: /admin/login/
# Alle Parameter-URLs sperren
Disallow: /*?
# PDF-Dateien sperren
Disallow: /*.pdf$
Bei Konflikten gilt die spezifischere Regel (längerer Pfad).
Sitemap-Verweis
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml
Unabhängig vom User-agent, mehrfach möglich.
Crawl-delay
User-agent: Bingbot
Crawl-delay: 10
# Google ignoriert Crawl-delay
# Search Console > Einstellungen > Crawling-Rate stattdessen
Meta-Robots-Tags
Während robots.txt auf Verzeichnisebene arbeitet, steuern Meta-Robots-Tags die Indexierung pro Seite:
<!-- Nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">
<!-- Indexieren, Links nicht folgen -->
<meta name="robots" content="index, nofollow">
<!-- Kein Snippet -->
<meta name="robots" content="nosnippet">
<!-- Keine Cache-Version -->
<meta name="robots" content="noarchive">
<!-- Bilder nicht indexieren -->
<meta name="robots" content="noimageindex">
<!-- Kombination -->
<meta name="robots" content="noindex, noarchive, nosnippet">
Direktiven
| Direktive | Wirkung |
|-----------|---------|
| index | Default — Seite darf indexiert werden |
| noindex | Nicht indexieren |
| follow | Default — Links verfolgen |
| nofollow | Links nicht verfolgen |
| noarchive | Keine Cache-Version |
| nosnippet | Kein Text-Snippet |
| noimageindex | Bilder nicht indexieren |
| max-snippet:[n] | Maximale Snippet-Länge in Zeichen |
| max-image-preview:[type] | none / standard / large |
| max-video-preview:[n] | Sekunden Vorschau |
Pro Bot:
<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noindex">
X-Robots-Tag (HTTP-Header)
Für Nicht-HTML-Ressourcen (PDFs, Bilder, JSON):
HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow
Apache:
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
Vergleich: robots.txt vs. Meta Robots vs. X-Robots-Tag
| Eigenschaft | robots.txt | Meta Robots | X-Robots-Tag |
|---|---|---|---|
| Steuerungsebene | Pfad/Verzeichnis | Einzelne Seite | Einzelne Ressource |
| Steuert Crawling | |||
| Steuert Indexierung | |||
| Für HTML | |||
| Für PDFs/Bilder | |||
| Granularität | Grob | Fein | Fein |
| Umsetzung | Textdatei im Root | <head>-Tag | HTTP-Header |
| noindex möglich | |||
| nofollow möglich | |||
| Von Google beachtet |
Best Practices
Was sollte blockiert werden?
Bei Hidden Champions mit umfangreichen Konfigurator-Sites — etwa einem Heilbronner Werkzeugbauer oder einem Konstanzer Automotive-Zulieferer — sollten Sie systematisch sperren:
- /admin/, /wp-admin/ — Backend
- /warenkorb/, /checkout/, /mein-konto/ — Transaktionsseiten
- /suche/, /?s= — Interne Suche
- /tag/ — Tag-Archive (häufig Thin Content)
- /tmp/, /cache/ — Temporäre Dateien
- Parameter wie
?sort=,?filter=,?session=
Was darf NICHT blockiert werden?
- CSS und JavaScript — Google muss die Seite rendern können
- Bilder — wichtig für Bilder-Suche und Page Experience
- Sitemap — muss erreichbar sein
- Seiten mit Canonical — Canonical funktioniert nur, wenn die Seite gecrawlt wird
- Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/
Test-Workflow
- Search Console → Einstellungen → robots.txt
- robots.txt-Tester für einzelne URLs
- URL-Prüfung für konkrete Seiten
- Indexierung > Seiten für aggregierte Auswertung
Beispiel-robots.txt für eine typische BW-Unternehmenswebsite
Eignet sich von Pharma-Distributoren in der BioRegion Rhein-Neckar bis Schwarzwald-Hotelportalen:
# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-05-08
User-agent: *
# Backend
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/
# Interne Suche
Disallow: /suche/
Disallow: /*?s=
# Transaktion
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
# Thin Content / Duplikate
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Disallow: /*?utm_
# Technisch
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/
# Assets explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/
# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml
Häufige Fehler
-
Disallow: /ohne Allow-Ausnahmen — Site verschwindet komplett. Klassiker nach Relaunches mit übernommener Staging-robots.txt. -
CSS/JS blockieren — Google kann die Seite nicht rendern, Rankings leiden.
-
robots.txt zur Indexierungssteuerung missbrauchen — verhindert Crawling, nicht Indexierung. Backlinks-only-Seiten landen trotzdem im Index.
-
noindex UND robots.txt-Block kombinieren — Google sieht das noindex nie.
-
Wildcard-Regeln ohne Tests —
*und$können unerwartete Bereiche treffen. -
Sitemap-Verweis vergessen — verschenkter Servicepunkt.
-
Veraltete robots.txt nach Relaunch — neue URL-Strukturen bedeuten neue Konfigurationen.
Fazit
robots.txt und Meta-Robots-Tags sind ein zentrales Werkzeug-Paar im technischen SEO. Sie ergänzen sich: robots.txt steuert effizient das Crawling ganzer Verzeichnisse, Meta-Robots-Tags die Indexierung einzelner Seiten. Für Hidden Champions zwischen Heidelberg und Friedrichshafen, die mit Konfiguratoren, Whitepaper-Bibliotheken und mehrsprachigen Auftritten arbeiten, ist die saubere Konfiguration die Voraussetzung dafür, dass die richtigen Seiten überhaupt im Wettbewerb stehen.
Soll Ihre Crawler-Steuerung professionell auditiert werden? Unser Team prüft robots.txt, Meta-Robots, X-Robots-Header und Search-Console-Coverage in einem Audit. Mehr unter Leistungen oder direkt Kontakt. Stuttgart-Region vertieft bei SEO Stuttgart, OnPage-Vertiefung bei onpage-optimierung.de. Verwandte Beiträge: Crawl Budget Optimierung, XML-Sitemap optimieren, Canonical URLs.
FAQ
Was passiert ohne robots.txt?
Suchmaschinen crawlen alle erreichbaren Seiten. Bei kleinen Sites unproblematisch. Bei umfangreichen Sites (Konfiguratoren, Pharma-Kataloge) wird Crawl-Budget für unwichtige Seiten verbrannt.
Kann ich mit robots.txt Seiten aus Google entfernen?
Nein. robots.txt verhindert nur Crawling. Externe Backlinks können dazu führen, dass blockierte Seiten trotzdem im Index landen — ohne dass Google den Inhalt kennt. Für sichere Deindexierung: noindex-Meta-Tag oder URL Removal Tool.
Wie teste ich meine robots.txt?
Search Console → Einstellungen → robots.txt-Tester. Zusätzlich URL-Prüfung für einzelne Seiten.
Blockiert robots.txt auch andere Suchmaschinen?
Alle Suchmaschinen, die das Robots Exclusion Protocol respektieren — Google, Bing, Yahoo, Yandex. Malware-Bots und Scraper ignorieren sie. Für echten Zugriffsschutz braucht es serverseitige Maßnahmen (Auth, IP-Block).
Wie oft sollte ich die robots.txt aktualisieren?
Mindestens vierteljährlich, plus nach jedem Relaunch oder Strukturchange. Veraltete robots.txt blockiert versehentlich neue Seiten oder lässt irrelevante Bereiche offen.