Inhaltsverzeichnis
Wenn der Googlebot auf Ihre Website kommt, hat er nicht unbegrenzt Zeit. Wie viele Seiten in welcher Frequenz gecrawlt werden, regelt das Crawl Budget. Bei Hidden-Champion-Konfiguratoren mit zehntausenden Parameter-Permutationen, bei Pharma-Distributionen mit umfangreichen Produktdatenbanken oder bei Tourismus-Plattformen mit zigtausend Unterkunftsseiten wird daraus ein strategischer Faktor: Crawlt Google die richtigen Seiten — oder verbrennt es Budget auf irrelevanten Filter-URLs? Dieser Leitfaden zeigt, wie Sie es analysieren und steuern.
Was Crawl Budget wirklich ist
Crawl Budget ist die Anzahl Seiten, die Google in einem definierten Zeitraum auf Ihrer Domain crawlt. Es ergibt sich aus zwei Faktoren:
Crawl Rate Limit
Maximale gleichzeitige Verbindungen, die der Googlebot zu Ihrem Server aufbauen darf — dynamisch angepasst an Server-Performance. Liefert Ihr Server 5xx-Fehler oder antwortet langsam, drosselt Google sofort.
Crawl Demand
Wie sehr Google Ihre URLs crawlen WILL — bestimmt durch Popularität, Aktualisierungsfrequenz und Backlink-Profil.
Effektives Crawl Budget = Schnittmenge beider Faktoren. Google crawlt so viel wie nötig (Demand), aber nie mehr als der Server verträgt (Rate Limit).
Wann Crawl Budget zum Engpass wird
Nicht jede Site muss sich darum sorgen — bei einer 30-Seiten-Brochure-Site eines Karlsruher Ingenieurbüros ist Crawl Budget kein Thema. Kritisch wird es bei:
- Großen Websites (10.000+ URLs) — E-Commerce, Marktplätze, Branchen-Portale, Tourismus-Aggregatoren
- Facettennavigation — jede Filterkombination erzeugt eine eigene URL. Ein Konstanzer Automotive-Zulieferer mit Material × Norm × Lieferzeitraum × Stückzahl produziert sechsstellige URL-Permutationen.
- Parameter-URLs — Tracking-Codes, Session-IDs, Sortieroptionen ohne inhaltlichen Mehrwert
- Häufigen Aktualisierungen — Magazin-Sites, News-Portale, Veranstaltungskalender (Bodensee-Tourismus etwa mit hunderten Events pro Saison)
- Technischen Schulden — Redirect-Ketten, 5xx-Sprünge, Soft-404s
Crawl-Verhalten analysieren
Search Console — Crawling-Statistiken
Unter Einstellungen > Crawling-Statistiken finden Sie:
- Crawl-Anfragen pro Tag — Trend-Verlauf der letzten 90 Tage
- Downloadgröße pro Tag — Datenmenge, die Google zieht
- Durchschnittliche Antwortzeit — kritisch: Werte über 1 Sekunde drosseln das Budget
- Antwortcodes — 200/301/404/5xx-Verteilung
- Dateityp-Verteilung — HTML, CSS, JS, Bilder, Sitemaps
Plötzlicher Rückgang der Crawl-Rate ist ein Server-Warnsignal. Hoher Anteil an Nicht-200-Antworten ist verschwendetes Budget.
Log-File-Analyse — die Königsdisziplin
# Googlebot-Zugriffe extrahieren (Apache)
grep "Googlebot" /var/log/apache2/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50
# Crawl-Frequenz pro Verzeichnis
grep "Googlebot" /var/log/apache2/access.log | awk '{print $7}' | sed 's/\?.*//g' | awk -F'/' '{print "/"$2"/"}' | sort | uniq -c | sort -rn
# HTTP-Statuscodes der Googlebot-Anfragen
grep "Googlebot" /var/log/apache2/access.log | awk '{print $9}' | sort | uniq -c | sort -rn
Häufige Aha-Momente: hunderte Googlebot-Visits auf Sortier-Filter-URLs, während wichtige Produktseiten seit Wochen unbesucht sind.
Tools
- Screaming Frog Log File Analyser — Standard für SMB, einmalige Lizenz
- Botify — Enterprise-Lösung mit kontinuierlicher Auswertung
- JetOctopus — Cloud, Echtzeit-Analyse, visuelle Crawl-Maps
Optimierungsstrategien
Parameter bereinigen
# Problematische Permutationen
/produkte/?material=stahl&durchmesser=20&sortierung=preis
/produkte/?durchmesser=20&material=stahl&sortierung=preis
/produkte/?sortierung=preis&material=stahl&durchmesser=20
Drei URLs, ein Inhalt. Lösungen:
- Canonical Tags auf der Master-URL
- robots.txt für rein technische Parameter (Session-IDs, UTM)
- Facettennavigation mit
noindex, followfür Filterseiten ohne SEO-Wert - URL-Design — sprechende statische URLs statt Parameter, wo möglich
Redirect-Ketten auflösen
# Schlecht
/alt/ → 301 → /mittel/ → 301 → /aktuell/
# Gut
/alt/ → 301 → /aktuell/
/mittel/ → 301 → /aktuell/
Jede Zwischenstation ist ein zusätzliches Crawl. Bei langen Ketten kann der Bot abbrechen.
Thin und Duplicate Content entfernen
- Thin Content — leere Tag-Archive, dürftige Kategorieseiten
- Duplicate Content — siehe Duplicate Content Lösungen
- Soft-404 — 200-Status, aber kein relevanter Inhalt
Maßnahmen: Konsolidieren, mit noindex versehen oder 301-Redirect.
XML-Sitemap als Steuerungswerkzeug
Eine saubere Sitemap erweitert das Budget nicht, lenkt es aber:
- Nur indexierbare Seiten mit 200-Status
- Keine noindex- oder kanonisierten URLs
lastmodnur bei echten Inhaltsänderungen- Sitemap-Index mit thematischen Teil-Sitemaps für große Sites
robots.txt gezielt einsetzen
User-agent: Googlebot
Disallow: /warenkorb/
Disallow: /suche/
Disallow: /intern/
Disallow: /*?session_id=
Disallow: /*?utm_
Sitemap: https://www.beispiel.de/sitemap.xml
Mehr in unserem Robots.txt-Guide.
Server-Performance verbessern
- TTFB unter 200 ms halten
- Caching für statische Ressourcen
- CDN-Einsatz für niedrige Latenz weltweit
- HTTP/2 für parallele Anfragen
- Server-Ressourcen monitoren, bei Engpässen skalieren
Tool-Vergleich
| Feature | Screaming Frog | Botify | JetOctopus Empfohlen |
|---|---|---|---|
| Log-File-Analyse | |||
| Echtzeit-Monitoring | |||
| Crawl-Budget-Berichte | |||
| Googlebot-Segmentierung | |||
| Cloud-basiert | |||
| Crawl-Maps (visuell) | |||
| Preis | Ab 245 EUR/Jahr | Enterprise (auf Anfrage) | Ab 55 EUR/Monat |
| Ideal für | KMU, einmalige Audits | Enterprise-Websites | Mittlere bis große Sites |
Checkliste
Analyse
- [ ] Search-Console-Crawling-Statistiken ausgewertet
- [ ] Server-Logs auf Googlebot-Verhalten analysiert
- [ ] 200er-Anteil über 90% (Ziel)
- [ ] Crawl-Verteilung nach Seitentypen
- [ ] Verwaiste Seiten identifiziert
Technische Optimierung
- [ ] Redirect-Ketten zu direkten 301s aufgelöst
- [ ] Parameter-URLs via Canonical/robots.txt entschärft
- [ ] Soft-404 zu echten 404 oder 410 gemacht
- [ ] TTFB unter 200 ms
- [ ] Duplicate Content konsolidiert oder mit noindex versehen
Steuerung
- [ ] XML-Sitemap aktuell und valide
- [ ] robots.txt auf irrelevante Bereiche geprüft
- [ ] Interne Verlinkung auf Top-Seiten gestärkt
- [ ] Monatliches Log-Audit eingeplant
- [ ] Crawl-Rate-Trend in Search Console beobachtet
Fazit
Crawl-Budget-Optimierung ist Dauerthema, kein Einmal-Projekt. Vor allem für umfangreiche Websites — Pharma-Distributionen in der BioRegion Rhein-Neckar, Tourismus-Aggregatoren am Bodensee, B2B-Konfiguratoren in der Hohenlohe — entscheidet die Steuerung des Bots darüber, welche Seiten überhaupt im Wettbewerb stehen. Wer Log-Files liest und Sitemap, Canonicals und Redirects diszipliniert führt, gewinnt sichtbaren Vorsprung.
Soll Ihr Crawl-Verhalten unter die Lupe? Eine vollständige technische Analyse über unsere Leistungen deckt die Top-Verschwendungs-Cluster auf, priorisiert nach Aufwand-zu-Wirkung. Stuttgart-spezifische Anwendungsfälle bei SEO Stuttgart, Linkstrategie bei offpage-optimierung.de. Verwandte Beiträge: Robots.txt-Guide, XML-Sitemap optimieren und Canonical URLs.
FAQ
Ab welcher Seitenzahl wird Crawl Budget relevant?
Faustregel: ab etwa 10.000 indexierbaren URLs aktiv steuern. Bei kleineren Sites mit sauberer Struktur und schnellem Server crawlt Google in der Regel vollständig — außer die Site enthält Crawl-Fallen wie endlose Kalender oder Filter-Permutationen.
Wie sehe ich, wie oft Google crawlt?
Search Console → Einstellungen → Crawling-Statistiken (90 Tage Historie). Für detaillierte Daten: Server-Logs mit Filter auf Googlebot-User-Agent.
Wirkt Server-Geschwindigkeit auf das Budget?
Direkt. TTFB unter 200 ms erlaubt Google deutlich höhere Crawl-Rate. Schlechte Performance bedeutet Drosselung — und damit weniger gecrawlte Seiten pro Tag.
Was sind Crawl-Fallen?
URL-Strukturen, die unendlich viele URLs erzeugen — etwa Kalender mit jeder zukünftigen Datums-URL, Facettennavigationen mit beliebig kombinierbaren Filtern oder Session-IDs. Im Log erkennbar: tausende ähnliche URLs werden wiederholt besucht.
Hilft eine XML-Sitemap, das Budget zu erweitern?
Nein. Die Sitemap erweitert das Budget nicht — sie hilft Google, die verfügbaren Ressourcen besser einzusetzen. Besonders wertvoll für neue oder schwer verlinkte Seiten.