Es gibt zwei kleine Textdateien, die Google braucht, um deine Website richtig zu verstehen: sitemap.xml und robots.txt. Die meisten Betreiber haben von beiden gehört, wissen aber nicht genau, was sie tun — oder haben bei der Einrichtung einen Fehler gemacht, der Google effektiv von der Website aussperrt.
In diesem Artikel erkläre ich, wofür beide Dateien da sind, wie man sie richtig einsetzt und worauf du bei einer statischen Website oder einem gängigen CMS achten musst.
Wenn Googles Crawler (Googlebot) deine Website besucht, sucht er zuerst nach diesen beiden Dateien im Stammverzeichnis deiner Domain:
https://deinedomain.de/sitemap.xmlhttps://deinedomain.de/robots.txtDie sitemap.xml beantwortet die Frage: „Welche Seiten existieren auf dieser Website, und wann wurden sie zuletzt geändert?" Die robots.txt beantwortet die Frage: „Was darf ich crawlen, was nicht?" — also die Zugriffsregeln für alle Crawler.
Beide Dateien sind technisch gesehen optional. Google kann deine Website auch ohne sie finden und indexieren — durch Links von anderen Seiten oder direkte URL-Eingabe in der Search Console. Aber ohne sie arbeitet Google langsamer und ineffizienter. Gerade bei neuen Websites oder großen Seiten mit vielen URLs machen sie einen spürbaren Unterschied.
Eine Sitemap ist eine XML-Datei, die alle öffentlichen Seiten deiner Website auflistet. Sie ist das Inhaltsverzeichnis, das du Google übergibst, damit der Crawler keine Seite übersieht — und vor allem versteht, welche Seiten dir wichtig sind.
Besonders wertvoll ist sie bei:
Was du wissen musst:
<url>-Eintrag<lastmod> gibt an, wann die Seite zuletzt geändert wurdeWas du wissen musst:
Allow: / erlaubt alles — das ist für die meisten Seiten richtigDisallow: schließt du interne Bereiche ausDie robots.txt ist eine einfache Textdatei, die Crawlern mitteilt, welche Bereiche der Website sie besuchen dürfen und welche nicht. Sie liegt immer direkt im Stammverzeichnis der Domain — also unter deinedomain.de/robots.txt.
Die Grundstruktur ist simpel: User-agent: definiert, für welchen Crawler die Regel gilt (ein Sternchen steht für alle). Allow: erlaubt den Zugriff, Disallow: sperrt ihn.
Wann macht Disallow: Sinn? Typischerweise für interne Verwaltungsbereiche (/admin/), Danke-Seiten nach Formulareinsendungen, Login-Bereiche, und Testseiten oder Staging-Umgebungen, die nicht indexiert werden sollen.
Wichtig: Die robots.txt ist eine Empfehlung, keine technische Sperre. Seriöse Crawler wie Googlebot halten sich daran. Ein echter Schutz von sensiblen Bereichen muss über serverseitige Authentifizierung erfolgen, nicht über die robots.txt.
Es ist der klassische Anfängerfehler — und er passiert erschreckend oft: Die robots.txt enthält eine Zeile, die Google die komplette Website sperrt:
Diese Zeile in robots.txt sperrt Google von der gesamten Website aus:
Disallow: /
Das bedeutet: „Kein Crawler darf irgendetwas crawlen." Wer das versehentlich setzt — zum Beispiel während der Entwicklungsphase — und dann vergisst, es vor dem Launch zu ändern, verliert alle Rankings. Die Seite verschwindet aus Google.
Dieser Fehler passiert häufig bei WordPress-Websites, wenn die Einstellung „Suchmaschinen davon abhalten, diese Website zu indexieren" aktiv bleibt — normalerweise eine Entwicklungsoption, die man vor dem Launch deaktivieren muss. Aber auch bei manuell erstellten robots.txt-Dateien kommt er vor.
Wie erkennst du ihn? Rufe deinedomain.de/robots.txt direkt im Browser auf und prüfe, ob Disallow: / ohne eine einschränkende Bedingung auftaucht. Oder nutze die Google Search Console — unter „URL-Überprüfung" siehst du direkt, ob Googlebot Zugriff auf eine Seite hat.
Zweithäufigster Fehler: Die Sitemap wird zwar erstellt, aber nie in der Google Search Console eingereicht. Google findet sie zwar in vielen Fällen automatisch, aber einreichen beschleunigt die Indexierung — besonders bei neuen Domains deutlich. Sitemap-Einreichung dauert 30 Sekunden.
Für Websites, die auf Netlify gehostet werden (wie statische HTML-Seiten), gibt es keine automatische Sitemap-Generierung — das ist ein wichtiger Unterschied zu WordPress oder Webflow. Die Sitemap muss manuell erstellt oder per Build-Script generiert werden.
Eine sauber gepflegte sitemap.xml liegt im Root-Verzeichnis und wird zusammen mit den HTML-Dateien deployt. Bei jeder Erweiterung der Website — neue Seiten, neue Stadtseiten — muss die Sitemap aktualisiert werden.
Die robots.txt hingegen ist auf Netlify simpel: Eine einfache Textdatei im Root mit User-agent: * und Allow: / sowie dem Sitemap-Verweis ist für die meisten öffentlichen Websites ausreichend. Über Netlify's _headers-Datei lassen sich zudem Cache-Header und Security-Header konfigurieren, die ebenfalls SEO-Relevanz haben.
Bei WordPress-basierten Websites übernehmen Plugins wie Yoast SEO oder Rank Math die Sitemap-Generierung und halten sie automatisch aktuell. Das ist einer der wenigen echten Vorteile von CMS-Systemen gegenüber statischen Sites: weniger manuelle Pflege für technische SEO-Grundlagen.
Mit diesen sechs Punkten stellst du sicher, dass Googles Crawler deine Website korrekt findet, crawlt und indexiert:
Alle öffentlichen Seiten erfassen, mit korrekten <loc>- und <lastmod>-Einträgen.
Unter „Sitemaps" in der Google Search Console eintragen — einmalig reicht.
Sicherstellen, dass keine ungewollte Disallow: / Regel aktiv ist.
Am Ende der robots.txt: Sitemap: https://deinedomain.de/sitemap.xml
Neue Unterseiten gehören in die Sitemap — bei statischen Sites manuell pflegen.
URL-Prüfung zeigt, ob Googlebot Zugriff hat und die Seite indexiert ist.
Fazit: Sitemap und robots.txt sind keine komplizierten Dateien — aber wenn sie fehlen oder falsch konfiguriert sind, kann das alle anderen SEO-Bemühungen zunichtemachen. Einmal richtig eingerichtet und regelmäßig gepflegt, bilden sie die technische Grundlage, auf der gute Rankings erst möglich werden.
Wir analysieren deine Website auf technische SEO-Schwachstellen — Sitemap, robots.txt, Indexierung, Core Web Vitals — und beheben sie direkt.
Projekt starten