Inhaltsverzeichnis

robots.txt und Meta-Robots-Tags steuern, was Suchmaschinen sehen — und was nicht. Beide Werkzeuge gehören zum Fundament des technischen SEO und werden in der Praxis erstaunlich oft falsch eingesetzt. Auch bei technisch versierten Hidden Champions zwischen Karlsruher Forschungslandschaft und Heilbronner Maschinenbau-Cluster sehen wir regelmäßig Konfigurationen, die wertvolle Seiten unbeabsichtigt vom Index ausschließen oder unwichtige Bereiche durch das Crawl-Budget brennen.

Was die robots.txt ist

Eine einfache Textdatei im Stammverzeichnis Ihrer Domain (https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche sie besuchen dürfen.

Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine via robots.txt blockierte Seite kann trotzdem im Index landen, wenn externe Backlinks darauf zeigen.

# Minimal-robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Syntax im Detail

User-agent

# Alle Crawler
User-agent: *
Disallow: /intern/

# Nur Googlebot
User-agent: Googlebot
Disallow: /tmp/

# Nur Bingbot
User-agent: Bingbot
Disallow: /archiv/

Spezifische User-agent-Regeln haben Vorrang vor allgemeinen.

Allow und Disallow

User-agent: *
Disallow: /admin/
Allow: /admin/login/

# Alle Parameter-URLs sperren
Disallow: /*?

# PDF-Dateien sperren
Disallow: /*.pdf$

Bei Konflikten gilt die spezifischere Regel (längerer Pfad).

Sitemap-Verweis

Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Unabhängig vom User-agent, mehrfach möglich.

Crawl-delay

User-agent: Bingbot
Crawl-delay: 10

# Google ignoriert Crawl-delay
# Search Console > Einstellungen > Crawling-Rate stattdessen

Meta-Robots-Tags

Während robots.txt auf Verzeichnisebene arbeitet, steuern Meta-Robots-Tags die Indexierung pro Seite:

<!-- Nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Indexieren, Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Kein Snippet -->
<meta name="robots" content="nosnippet">

<!-- Keine Cache-Version -->
<meta name="robots" content="noarchive">

<!-- Bilder nicht indexieren -->
<meta name="robots" content="noimageindex">

<!-- Kombination -->
<meta name="robots" content="noindex, noarchive, nosnippet">

Direktiven

| Direktive | Wirkung | |-----------|---------| | index | Default — Seite darf indexiert werden | | noindex | Nicht indexieren | | follow | Default — Links verfolgen | | nofollow | Links nicht verfolgen | | noarchive | Keine Cache-Version | | nosnippet | Kein Text-Snippet | | noimageindex | Bilder nicht indexieren | | max-snippet:[n] | Maximale Snippet-Länge in Zeichen | | max-image-preview:[type] | none / standard / large | | max-video-preview:[n] | Sekunden Vorschau |

Pro Bot:

<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noindex">

X-Robots-Tag (HTTP-Header)

Für Nicht-HTML-Ressourcen (PDFs, Bilder, JSON):

HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow

Apache:

<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Vergleich: robots.txt vs. Meta Robots vs. X-Robots-Tag

Eigenschaft	robots.txt	Meta Robots	X-Robots-Tag
Steuerungsebene	Pfad/Verzeichnis	Einzelne Seite	Einzelne Ressource
Steuert Crawling
Steuert Indexierung
Für HTML
Für PDFs/Bilder
Granularität	Grob	Fein	Fein
Umsetzung	Textdatei im Root	<head>-Tag	HTTP-Header
noindex möglich
nofollow möglich
Von Google beachtet

Best Practices

Was sollte blockiert werden?

Bei Hidden Champions mit umfangreichen Konfigurator-Sites — etwa einem Heilbronner Werkzeugbauer oder einem Konstanzer Automotive-Zulieferer — sollten Sie systematisch sperren:

/admin/, /wp-admin/ — Backend
/warenkorb/, /checkout/, /mein-konto/ — Transaktionsseiten
/suche/, /?s= — Interne Suche
/tag/ — Tag-Archive (häufig Thin Content)
/tmp/, /cache/ — Temporäre Dateien
Parameter wie ?sort=, ?filter=, ?session=

Was darf NICHT blockiert werden?

CSS und JavaScript — Google muss die Seite rendern können
Bilder — wichtig für Bilder-Suche und Page Experience
Sitemap — muss erreichbar sein
Seiten mit Canonical — Canonical funktioniert nur, wenn die Seite gecrawlt wird
Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/

Test-Workflow

Search Console → Einstellungen → robots.txt
robots.txt-Tester für einzelne URLs
URL-Prüfung für konkrete Seiten
Indexierung > Seiten für aggregierte Auswertung

Beispiel-robots.txt für eine typische BW-Unternehmenswebsite

Eignet sich von Pharma-Distributoren in der BioRegion Rhein-Neckar bis Schwarzwald-Hotelportalen:

# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-05-08

User-agent: *

# Backend
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/

# Interne Suche
Disallow: /suche/
Disallow: /*?s=

# Transaktion
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/

# Thin Content / Duplikate
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Disallow: /*?utm_

# Technisch
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/

# Assets explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/

# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Häufige Fehler

Disallow: / ohne Allow-Ausnahmen — Site verschwindet komplett. Klassiker nach Relaunches mit übernommener Staging-robots.txt.
CSS/JS blockieren — Google kann die Seite nicht rendern, Rankings leiden.
robots.txt zur Indexierungssteuerung missbrauchen — verhindert Crawling, nicht Indexierung. Backlinks-only-Seiten landen trotzdem im Index.
noindex UND robots.txt-Block kombinieren — Google sieht das noindex nie.
Wildcard-Regeln ohne Tests — * und $ können unerwartete Bereiche treffen.
Sitemap-Verweis vergessen — verschenkter Servicepunkt.
Veraltete robots.txt nach Relaunch — neue URL-Strukturen bedeuten neue Konfigurationen.

Fazit

robots.txt und Meta-Robots-Tags sind ein zentrales Werkzeug-Paar im technischen SEO. Sie ergänzen sich: robots.txt steuert effizient das Crawling ganzer Verzeichnisse, Meta-Robots-Tags die Indexierung einzelner Seiten. Für Hidden Champions zwischen Heidelberg und Friedrichshafen, die mit Konfiguratoren, Whitepaper-Bibliotheken und mehrsprachigen Auftritten arbeiten, ist die saubere Konfiguration die Voraussetzung dafür, dass die richtigen Seiten überhaupt im Wettbewerb stehen.

Soll Ihre Crawler-Steuerung professionell auditiert werden? Unser Team prüft robots.txt, Meta-Robots, X-Robots-Header und Search-Console-Coverage in einem Audit. Mehr unter Leistungen oder direkt Kontakt. Stuttgart-Region vertieft bei SEO Stuttgart, OnPage-Vertiefung bei onpage-optimierung.de. Verwandte Beiträge: Crawl Budget Optimierung, XML-Sitemap optimieren, Canonical URLs.

FAQ

Was passiert ohne robots.txt?

Suchmaschinen crawlen alle erreichbaren Seiten. Bei kleinen Sites unproblematisch. Bei umfangreichen Sites (Konfiguratoren, Pharma-Kataloge) wird Crawl-Budget für unwichtige Seiten verbrannt.

Kann ich mit robots.txt Seiten aus Google entfernen?

Nein. robots.txt verhindert nur Crawling. Externe Backlinks können dazu führen, dass blockierte Seiten trotzdem im Index landen — ohne dass Google den Inhalt kennt. Für sichere Deindexierung: noindex-Meta-Tag oder URL Removal Tool.

Wie teste ich meine robots.txt?

Search Console → Einstellungen → robots.txt-Tester. Zusätzlich URL-Prüfung für einzelne Seiten.

Blockiert robots.txt auch andere Suchmaschinen?

Alle Suchmaschinen, die das Robots Exclusion Protocol respektieren — Google, Bing, Yahoo, Yandex. Malware-Bots und Scraper ignorieren sie. Für echten Zugriffsschutz braucht es serverseitige Maßnahmen (Auth, IP-Block).

Wie oft sollte ich die robots.txt aktualisieren?

Mindestens vierteljährlich, plus nach jedem Relaunch oder Strukturchange. Veraltete robots.txt blockiert versehentlich neue Seiten oder lässt irrelevante Bereiche offen.

Schlagworte

#Robots.txt #Meta Robots #Crawling #Indexierung #Technisches SEO

Arnold Wender

SEO-Experte & Geschäftsinhaber

Arnold Wender ist Gründer und Geschäftsinhaber von Wender Media. Mit über 19 Jahren SEO-Erfahrung betreut er Unternehmen in Baden-Württemberg und ganz Deutschland.

Profil anzeigen

Technisches SEO

Cookie	Zweck	Dauer	Anbieter
cookieConsent	Speichert Ihre Cookie-Einstellungen	1 Jahr	Eigene Website
theme	Speichert Ihre Farbschema-Praeferenz	1 Jahr	Eigene Website
session	Sitzungsmanagement für Formulare	Sitzung	Eigene Website

Cookie	Zweck	Dauer	Anbieter
_ga	Unterscheidet Benutzer für Statistiken	2 Jahre	Google Analytics
_gid	Unterscheidet Benutzer (24h)	24 Stunden	Google Analytics
_gat	Begrenzt Anfragen	1 Minute	Google Analytics

Cookie	Zweck	Dauer	Anbieter
_fbp	Facebook Pixel für Werbezwecke	3 Monate	Facebook
_gcl_au	Google Ads Conversion-Tracking	3 Monate	Google Ads

Cookie	Zweck	Dauer	Anbieter
language	Speichert Ihre Spracheinstellung	1 Jahr	Eigene Website
region	Speichert Ihre Regionseinstellung	1 Jahr	Eigene Website

Robots.txt und Meta-Robots richtig einsetzen: Der vollständige Guide

Was die robots.txt ist

Syntax im Detail

User-agent

Allow und Disallow

Sitemap-Verweis

Crawl-delay

Meta-Robots-Tags

Direktiven

X-Robots-Tag (HTTP-Header)

Vergleich: robots.txt vs. Meta Robots vs. X-Robots-Tag

Best Practices

Was sollte blockiert werden?

Was darf NICHT blockiert werden?

Test-Workflow

Beispiel-robots.txt für eine typische BW-Unternehmenswebsite

Häufige Fehler

Fazit

FAQ

Was passiert ohne robots.txt?

Kann ich mit robots.txt Seiten aus Google entfernen?

Wie teste ich meine robots.txt?

Blockiert robots.txt auch andere Suchmaschinen?

Wie oft sollte ich die robots.txt aktualisieren?

Schlagworte

Arnold Wender

XML Sitemap erstellen und optimieren: Der komplette Guide

Duplicate Content vermeiden: Ursachen, Erkennung und Lösungen

Canonical URLs richtig setzen: Duplicate Content vermeiden

Inhaltsverzeichnis

SEO-Newsletter

Fragen zum Thema?

Essenzielle Cookies

Analyse-Cookies

Marketing-Cookies

Praeferenz-Cookies

Robots.txt und Meta-Robots richtig einsetzen: Der vollständige Guide

Was die robots.txt ist

Syntax im Detail

User-agent

Allow und Disallow

Sitemap-Verweis

Crawl-delay

Meta-Robots-Tags

Direktiven

X-Robots-Tag (HTTP-Header)

Vergleich: robots.txt vs. Meta Robots vs. X-Robots-Tag

Best Practices

Was sollte blockiert werden?

Was darf NICHT blockiert werden?

Test-Workflow

Beispiel-robots.txt für eine typische BW-Unternehmenswebsite

Häufige Fehler

Fazit

FAQ

Was passiert ohne robots.txt?

Kann ich mit robots.txt Seiten aus Google entfernen?

Wie teste ich meine robots.txt?

Blockiert robots.txt auch andere Suchmaschinen?

Wie oft sollte ich die robots.txt aktualisieren?

Schlagworte

Arnold Wender

Verwandte Artikel

XML Sitemap erstellen und optimieren: Der komplette Guide

Duplicate Content vermeiden: Ursachen, Erkennung und Lösungen

Canonical URLs richtig setzen: Duplicate Content vermeiden

Inhaltsverzeichnis

SEO-Newsletter

Fragen zum Thema?