Sitemap & robots.txt: Technische SEO einfach erklärt

Inhalt

Zwei Dateien, die Google braucht
sitemap.xml — Die Karte aller Seiten
robots.txt — Googles Zutrittsregeln
Der häufigste Fehler: Google ausgesperrt
Netlify-Websites: Was automatisch geht
Checkliste: 6 Punkte für saubere technische SEO

Es gibt zwei kleine Textdateien, die Google braucht, um deine Website richtig zu verstehen: sitemap.xml und robots.txt. Die meisten Betreiber haben von beiden gehört, wissen aber nicht genau, was sie tun — oder haben bei der Einrichtung einen Fehler gemacht, der Google effektiv von der Website aussperrt.

In diesem Artikel erkläre ich, wofür beide Dateien da sind, wie man sie richtig einsetzt und worauf du bei einer statischen Website oder einem gängigen CMS achten musst.

Zwei Dateien, die Google braucht

Wenn Googles Crawler (Googlebot) deine Website besucht, sucht er zuerst nach diesen beiden Dateien im Stammverzeichnis deiner Domain:

https://deinedomain.de/sitemap.xml
https://deinedomain.de/robots.txt

Die sitemap.xml beantwortet die Frage: „Welche Seiten existieren auf dieser Website, und wann wurden sie zuletzt geändert?" Die robots.txt beantwortet die Frage: „Was darf ich crawlen, was nicht?" — also die Zugriffsregeln für alle Crawler.

Beide Dateien sind technisch gesehen optional. Google kann deine Website auch ohne sie finden und indexieren — durch Links von anderen Seiten oder direkte URL-Eingabe in der Search Console. Aber ohne sie arbeitet Google langsamer und ineffizienter. Gerade bei neuen Websites oder großen Seiten mit vielen URLs machen sie einen spürbaren Unterschied.

sitemap.xml — Die Karte aller Seiten

Eine Sitemap ist eine XML-Datei, die alle öffentlichen Seiten deiner Website auflistet. Sie ist das Inhaltsverzeichnis, das du Google übergibst, damit der Crawler keine Seite übersieht — und vor allem versteht, welche Seiten dir wichtig sind.

Besonders wertvoll ist sie bei:

Neuen Websites, die noch kaum externe Links haben
Websites mit vielen Seiten (ab etwa 10–15 URLs)
Seiten, die intern schlecht verlinkt sind (z. B. Stadtseiten-Sammlungen)
Websites, an denen regelmäßig Inhalte geändert werden

XML

sitemap.xml

Sagt Google, WELCHE Seiten existieren

<?xml version="1.0"?> <urlset xmlns="http://www.sitemaps.org/ schemas/sitemap/0.9"> <url> <loc>https://deinedomain.de/</loc> <lastmod>2025-12-30</lastmod> <priority>1.0</priority> </url> <url> <loc>https://deinedomain.de/leistungen</loc> <lastmod>2025-12-01</lastmod> </url> </urlset>

Was du wissen musst:

Jede öffentliche Seite bekommt einen <url>-Eintrag
<lastmod> gibt an, wann die Seite zuletzt geändert wurde
In der Google Search Console einreichen unter „Sitemaps"

TXT

robots.txt

Sagt Google, WAS es crawlen darf

# Für alle Crawler User-agent: * Allow: / # Bestimmte Verzeichnisse sperren User-agent: * Disallow: /admin/ Disallow: /intern/ Disallow: /wp-admin/ # Sitemap-Pfad angeben Sitemap: https://deinedomain.de/ sitemap.xml

Was du wissen musst:

Allow: / erlaubt alles — das ist für die meisten Seiten richtig
Mit Disallow: schließt du interne Bereiche aus
Der Sitemap-Verweis am Ende ist eine Best Practice

robots.txt — Googles Zutrittsregeln

Die robots.txt ist eine einfache Textdatei, die Crawlern mitteilt, welche Bereiche der Website sie besuchen dürfen und welche nicht. Sie liegt immer direkt im Stammverzeichnis der Domain — also unter deinedomain.de/robots.txt.

Die Grundstruktur ist simpel: User-agent: definiert, für welchen Crawler die Regel gilt (ein Sternchen steht für alle). Allow: erlaubt den Zugriff, Disallow: sperrt ihn.

Wann macht Disallow: Sinn? Typischerweise für interne Verwaltungsbereiche (/admin/), Danke-Seiten nach Formulareinsendungen, Login-Bereiche, und Testseiten oder Staging-Umgebungen, die nicht indexiert werden sollen.

Wichtig: Die robots.txt ist eine Empfehlung, keine technische Sperre. Seriöse Crawler wie Googlebot halten sich daran. Ein echter Schutz von sensiblen Bereichen muss über serverseitige Authentifizierung erfolgen, nicht über die robots.txt.

Der häufigste Fehler: Google ausgesperrt

Es ist der klassische Anfängerfehler — und er passiert erschreckend oft: Die robots.txt enthält eine Zeile, die Google die komplette Website sperrt:

Diese Zeile in robots.txt sperrt Google von der gesamten Website aus:
Disallow: /

Das bedeutet: „Kein Crawler darf irgendetwas crawlen." Wer das versehentlich setzt — zum Beispiel während der Entwicklungsphase — und dann vergisst, es vor dem Launch zu ändern, verliert alle Rankings. Die Seite verschwindet aus Google.

Dieser Fehler passiert häufig bei WordPress-Websites, wenn die Einstellung „Suchmaschinen davon abhalten, diese Website zu indexieren" aktiv bleibt — normalerweise eine Entwicklungsoption, die man vor dem Launch deaktivieren muss. Aber auch bei manuell erstellten robots.txt-Dateien kommt er vor.

Wie erkennst du ihn? Rufe deinedomain.de/robots.txt direkt im Browser auf und prüfe, ob Disallow: / ohne eine einschränkende Bedingung auftaucht. Oder nutze die Google Search Console — unter „URL-Überprüfung" siehst du direkt, ob Googlebot Zugriff auf eine Seite hat.

Zweithäufigster Fehler: Die Sitemap wird zwar erstellt, aber nie in der Google Search Console eingereicht. Google findet sie zwar in vielen Fällen automatisch, aber einreichen beschleunigt die Indexierung — besonders bei neuen Domains deutlich. Sitemap-Einreichung dauert 30 Sekunden.

Netlify-Websites: Was automatisch geht

Für Websites, die auf Netlify gehostet werden (wie statische HTML-Seiten), gibt es keine automatische Sitemap-Generierung — das ist ein wichtiger Unterschied zu WordPress oder Webflow. Die Sitemap muss manuell erstellt oder per Build-Script generiert werden.

Eine sauber gepflegte sitemap.xml liegt im Root-Verzeichnis und wird zusammen mit den HTML-Dateien deployt. Bei jeder Erweiterung der Website — neue Seiten, neue Stadtseiten — muss die Sitemap aktualisiert werden.

Die robots.txt hingegen ist auf Netlify simpel: Eine einfache Textdatei im Root mit User-agent: * und Allow: / sowie dem Sitemap-Verweis ist für die meisten öffentlichen Websites ausreichend. Über Netlify's _headers-Datei lassen sich zudem Cache-Header und Security-Header konfigurieren, die ebenfalls SEO-Relevanz haben.

Bei WordPress-basierten Websites übernehmen Plugins wie Yoast SEO oder Rank Math die Sitemap-Generierung und halten sie automatisch aktuell. Das ist einer der wenigen echten Vorteile von CMS-Systemen gegenüber statischen Sites: weniger manuelle Pflege für technische SEO-Grundlagen.

Checkliste: 6 Punkte für saubere technische SEO

Mit diesen sechs Punkten stellst du sicher, dass Googles Crawler deine Website korrekt findet, crawlt und indexiert:

Sitemap erstellen

Alle öffentlichen Seiten erfassen, mit korrekten <loc>- und <lastmod>-Einträgen.

Sitemap in Search Console einreichen

Unter „Sitemaps" in der Google Search Console eintragen — einmalig reicht.

robots.txt prüfen

Sicherstellen, dass keine ungewollte Disallow: / Regel aktiv ist.

Sitemap in robots.txt verlinken

Am Ende der robots.txt: Sitemap: https://deinedomain.de/sitemap.xml

Sitemap bei neuen Seiten aktualisieren

Neue Unterseiten gehören in die Sitemap — bei statischen Sites manuell pflegen.

Indexierung in Search Console prüfen

URL-Prüfung zeigt, ob Googlebot Zugriff hat und die Seite indexiert ist.

Fazit: Sitemap und robots.txt sind keine komplizierten Dateien — aber wenn sie fehlen oder falsch konfiguriert sind, kann das alle anderen SEO-Bemühungen zunichtemachen. Einmal richtig eingerichtet und regelmäßig gepflegt, bilden sie die technische Grundlage, auf der gute Rankings erst möglich werden.

Daniel Kircher

Gründer Pixelklar — Webdesign & SEO für lokale Betriebe in NRW.

Technische SEO prüfen lassen?

Wir analysieren deine Website auf technische SEO-Schwachstellen — Sitemap, robots.txt, Indexierung, Core Web Vitals — und beheben sie direkt.

Projekt starten