Robots.txt Konfiguration für SEO
Technisches SEO 9 Min. Lesezeit

Robots.txt und Meta-Robots richtig einsetzen: Der vollständige Guide

Crawling und Indexierung steuern — von Karlsruher KIT-Forschungsportalen bis Heilbronner Konfigurator-Plattformen. Praxis-Guide für robots.txt und Meta-Robots.

Arnold Wender

Arnold Wender

SEO-Experte & Geschäftsinhaber

Aktualisiert: 8. Mai 2026
Inhaltsverzeichnis

robots.txt und Meta-Robots-Tags steuern, was Suchmaschinen sehen — und was nicht. Beide Werkzeuge gehören zum Fundament des technischen SEO und werden in der Praxis erstaunlich oft falsch eingesetzt. Auch bei technisch versierten Hidden Champions zwischen Karlsruher Forschungslandschaft und Heilbronner Maschinenbau-Cluster sehen wir regelmäßig Konfigurationen, die wertvolle Seiten unbeabsichtigt vom Index ausschließen oder unwichtige Bereiche durch das Crawl-Budget brennen.

Was die robots.txt ist

Eine einfache Textdatei im Stammverzeichnis Ihrer Domain (https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche sie besuchen dürfen.

Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine via robots.txt blockierte Seite kann trotzdem im Index landen, wenn externe Backlinks darauf zeigen.

# Minimal-robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Syntax im Detail

User-agent

# Alle Crawler
User-agent: *
Disallow: /intern/

# Nur Googlebot
User-agent: Googlebot
Disallow: /tmp/

# Nur Bingbot
User-agent: Bingbot
Disallow: /archiv/

Spezifische User-agent-Regeln haben Vorrang vor allgemeinen.

Allow und Disallow

User-agent: *
Disallow: /admin/
Allow: /admin/login/

# Alle Parameter-URLs sperren
Disallow: /*?

# PDF-Dateien sperren
Disallow: /*.pdf$

Bei Konflikten gilt die spezifischere Regel (längerer Pfad).

Sitemap-Verweis

Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Unabhängig vom User-agent, mehrfach möglich.

Crawl-delay

User-agent: Bingbot
Crawl-delay: 10

# Google ignoriert Crawl-delay
# Search Console > Einstellungen > Crawling-Rate stattdessen

Meta-Robots-Tags

Während robots.txt auf Verzeichnisebene arbeitet, steuern Meta-Robots-Tags die Indexierung pro Seite:

<!-- Nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Indexieren, Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Kein Snippet -->
<meta name="robots" content="nosnippet">

<!-- Keine Cache-Version -->
<meta name="robots" content="noarchive">

<!-- Bilder nicht indexieren -->
<meta name="robots" content="noimageindex">

<!-- Kombination -->
<meta name="robots" content="noindex, noarchive, nosnippet">

Direktiven

| Direktive | Wirkung | |-----------|---------| | index | Default — Seite darf indexiert werden | | noindex | Nicht indexieren | | follow | Default — Links verfolgen | | nofollow | Links nicht verfolgen | | noarchive | Keine Cache-Version | | nosnippet | Kein Text-Snippet | | noimageindex | Bilder nicht indexieren | | max-snippet:[n] | Maximale Snippet-Länge in Zeichen | | max-image-preview:[type] | none / standard / large | | max-video-preview:[n] | Sekunden Vorschau |

Pro Bot:

<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noindex">

X-Robots-Tag (HTTP-Header)

Für Nicht-HTML-Ressourcen (PDFs, Bilder, JSON):

HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow

Apache:

<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Vergleich: robots.txt vs. Meta Robots vs. X-Robots-Tag

Eigenschaft robots.txt Meta Robots X-Robots-Tag
Steuerungsebene Pfad/Verzeichnis Einzelne Seite Einzelne Ressource
Steuert Crawling
Steuert Indexierung
Für HTML
Für PDFs/Bilder
Granularität Grob Fein Fein
Umsetzung Textdatei im Root <head>-Tag HTTP-Header
noindex möglich
nofollow möglich
Von Google beachtet

Best Practices

Was sollte blockiert werden?

Bei Hidden Champions mit umfangreichen Konfigurator-Sites — etwa einem Heilbronner Werkzeugbauer oder einem Konstanzer Automotive-Zulieferer — sollten Sie systematisch sperren:

  • /admin/, /wp-admin/ — Backend
  • /warenkorb/, /checkout/, /mein-konto/ — Transaktionsseiten
  • /suche/, /?s= — Interne Suche
  • /tag/ — Tag-Archive (häufig Thin Content)
  • /tmp/, /cache/ — Temporäre Dateien
  • Parameter wie ?sort=, ?filter=, ?session=

Was darf NICHT blockiert werden?

  • CSS und JavaScript — Google muss die Seite rendern können
  • Bilder — wichtig für Bilder-Suche und Page Experience
  • Sitemap — muss erreichbar sein
  • Seiten mit Canonical — Canonical funktioniert nur, wenn die Seite gecrawlt wird
  • Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/

Test-Workflow

  1. Search Console → Einstellungen → robots.txt
  2. robots.txt-Tester für einzelne URLs
  3. URL-Prüfung für konkrete Seiten
  4. Indexierung > Seiten für aggregierte Auswertung

Beispiel-robots.txt für eine typische BW-Unternehmenswebsite

Eignet sich von Pharma-Distributoren in der BioRegion Rhein-Neckar bis Schwarzwald-Hotelportalen:

# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-05-08

User-agent: *

# Backend
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/

# Interne Suche
Disallow: /suche/
Disallow: /*?s=

# Transaktion
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/

# Thin Content / Duplikate
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Disallow: /*?utm_

# Technisch
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/

# Assets explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/

# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Häufige Fehler

  1. Disallow: / ohne Allow-Ausnahmen — Site verschwindet komplett. Klassiker nach Relaunches mit übernommener Staging-robots.txt.

  2. CSS/JS blockieren — Google kann die Seite nicht rendern, Rankings leiden.

  3. robots.txt zur Indexierungssteuerung missbrauchen — verhindert Crawling, nicht Indexierung. Backlinks-only-Seiten landen trotzdem im Index.

  4. noindex UND robots.txt-Block kombinieren — Google sieht das noindex nie.

  5. Wildcard-Regeln ohne Tests* und $ können unerwartete Bereiche treffen.

  6. Sitemap-Verweis vergessen — verschenkter Servicepunkt.

  7. Veraltete robots.txt nach Relaunch — neue URL-Strukturen bedeuten neue Konfigurationen.

Fazit

robots.txt und Meta-Robots-Tags sind ein zentrales Werkzeug-Paar im technischen SEO. Sie ergänzen sich: robots.txt steuert effizient das Crawling ganzer Verzeichnisse, Meta-Robots-Tags die Indexierung einzelner Seiten. Für Hidden Champions zwischen Heidelberg und Friedrichshafen, die mit Konfiguratoren, Whitepaper-Bibliotheken und mehrsprachigen Auftritten arbeiten, ist die saubere Konfiguration die Voraussetzung dafür, dass die richtigen Seiten überhaupt im Wettbewerb stehen.

Soll Ihre Crawler-Steuerung professionell auditiert werden? Unser Team prüft robots.txt, Meta-Robots, X-Robots-Header und Search-Console-Coverage in einem Audit. Mehr unter Leistungen oder direkt Kontakt. Stuttgart-Region vertieft bei SEO Stuttgart, OnPage-Vertiefung bei onpage-optimierung.de. Verwandte Beiträge: Crawl Budget Optimierung, XML-Sitemap optimieren, Canonical URLs.


FAQ

Was passiert ohne robots.txt?

Suchmaschinen crawlen alle erreichbaren Seiten. Bei kleinen Sites unproblematisch. Bei umfangreichen Sites (Konfiguratoren, Pharma-Kataloge) wird Crawl-Budget für unwichtige Seiten verbrannt.

Kann ich mit robots.txt Seiten aus Google entfernen?

Nein. robots.txt verhindert nur Crawling. Externe Backlinks können dazu führen, dass blockierte Seiten trotzdem im Index landen — ohne dass Google den Inhalt kennt. Für sichere Deindexierung: noindex-Meta-Tag oder URL Removal Tool.

Wie teste ich meine robots.txt?

Search Console → Einstellungen → robots.txt-Tester. Zusätzlich URL-Prüfung für einzelne Seiten.

Blockiert robots.txt auch andere Suchmaschinen?

Alle Suchmaschinen, die das Robots Exclusion Protocol respektieren — Google, Bing, Yahoo, Yandex. Malware-Bots und Scraper ignorieren sie. Für echten Zugriffsschutz braucht es serverseitige Maßnahmen (Auth, IP-Block).

Wie oft sollte ich die robots.txt aktualisieren?

Mindestens vierteljährlich, plus nach jedem Relaunch oder Strukturchange. Veraltete robots.txt blockiert versehentlich neue Seiten oder lässt irrelevante Bereiche offen.

Arnold Wender, SEO-Experte

SEO-Experte & Geschäftsinhaber

Arnold Wender ist Gründer und Geschäftsinhaber von Wender Media. Mit über 19 Jahren SEO-Erfahrung betreut er Unternehmen in Baden-Württemberg und ganz Deutschland.

Profil anzeigen