- Seit 2023 gibt es eigene KI-Crawler von OpenAI, Google, Anthropic, Perplexity und anderen. Die klassische robots.txt deckt sie, wenn Sie die richtigen Token kennen.
- GPTBot, ClaudeBot und CCBot sammeln Trainingsdaten. OAI-SearchBot und PerplexityBot sind für Live-Suchantworten zuständig. Google-Extended steuert nur den KI-Einsatz bereits gecrawlter Inhalte.
- Wer GPTBot sperrt, verhindert KI-Training, nicht aber das Erscheinen in ChatGPT-Suche. Wer Googlebot sperrt, verschwindet aus den Google-Ergebnissen. Die beiden zu verwechseln, ist ein häufig teuer bezahlter Irrtum.
- robots.txt ist freiwillig. Seriöse Anbieter halten sie ein, manche kleinere Crawler ignorieren sie. Wer sicher sperren will, braucht zusätzlich eine Firewall-Regel.
Wer seine robots.txt zuletzt vor 2023 bearbeitet hat, regelt dort nur Suchmaschinen-Crawler. Seitdem haben OpenAI, Google, Anthropic, Perplexity und andere jeweils eigene Bots in Betrieb genommen, die andere Zwecke verfolgen als das klassische Suchmaschinen-Crawling. GPTBot sammelt Trainingsdaten für KI-Modelle. OAI-SearchBot indexiert für die ChatGPT-Suche. Google-Extended steuert, ob Ihre Inhalte in Gemini landen. Dieser Artikel erklärt, welche Bots welchen Token verwenden, was jeder davon bewirkt und wie Sie die robots.txt gezielt aufsetzen.
Was die robots.txt steuert und was nicht
Die Datei liegt unter https://www.ihre-domain.de/robots.txt, ist öffentlich lesbar und folgt dem Robots Exclusion Protocol, das seit 1994 etabliert ist. Google beschreibt das Protokoll als Verhandlung, nicht als Zwang: Ein Crawler, der robots.txt respektiert, hält die Regeln ein. Ein Crawler, der sie ignoriert, wird durch keine Technik in der Datei aufgehalten.
Was die robots.txt kann: bestimmten Crawlern bestimmte Pfade verbieten oder erlauben. Was sie nicht kann: Inhalte schützen, die bereits im Web indexiert sind, den Zugriff über direkte HTTP-Anfragen blockieren oder verifizieren, ob ein Crawler wirklich der ist, der er vorgibt zu sein.
Ein Punkt, der regelmäßig übersehen wird: Die robots.txt selbst ist öffentlich einsehbar. Wer dort empfindliche Verzeichnisse auflistet, veröffentlicht damit eine Liste interessanter Angriffspunkte. Inhalte, die wirklich nicht nach außen dürfen, gehören hinter einen Login, nicht hinter eine Disallow-Zeile.
Die wichtigsten KI-Crawler im Überblick
Entscheidend für das Verständnis: Jeder Anbieter betreibt mehrere Bots mit unterschiedlichen Aufgaben. GPTBot und OAI-SearchBot von OpenAI haben verschiedene Zwecke und reagieren unabhängig auf robots.txt-Regeln. Wer nur einen davon sperrt, lässt den anderen durch.
OpenAI: drei Bots mit verschiedenen Rollen
OpenAI dokumentiert drei Bots offiziell. GPTBot (Token: GPTBot) crawlt Webseiten, um Trainingsdaten für KI-Modelle zu sammeln. OAI-SearchBot (Token: OAI-SearchBot) indexiert Inhalte für die ChatGPT-Suche. ChatGPT-User (Token: ChatGPT-User) handelt auf Nutzerinitiative, wenn ein ChatGPT-Nutzer im Gespräch auf eine URL verweist. OpenAI erklärt dazu explizit, dass ChatGPT-User als vom Nutzer ausgelöste Anfrage gilt und robots.txt-Regeln in diesem Fall typischerweise nicht gelten.
Das ist für die Praxis wichtig: Wer GPTBot sperrt, verhindert das automatische Trainingsdaten-Crawling. Das Erscheinen in ChatGPT-Suchantworten hängt von OAI-SearchBot ab, nicht von GPTBot.
Google: Google-Extended ist kein Crawler
Das ist der häufigste Irrtum bei Google. Google-Extended (Token: Google-Extended) hat laut offizieller Google-Dokumentation keinen eigenen User-Agent-String. Das bedeutet: Google-Extended crawlt nicht selbst. Es steuert nur nachgelagert, ob Inhalte, die Googlebot bereits gecrawlt hat, für das Training von Gemini und Vertex AI verwendet werden dürfen. Googlebot (Token: Googlebot) ist davon vollständig unabhängig und zuständig für die Google-Suche, Images, News und Discover.
Wer Google-Extended sperrt, verliert keinen einzigen Rang in der Google-Suche. Wer Googlebot sperrt, verschwindet aus den Ergebnissen. Beide zu verwechseln, ist ein teurer Irrtum.
Anthropic: ClaudeBot für Training, Claude-SearchBot für Suche
Anthropic dokumentiert ebenfalls mehrere Bots. ClaudeBot (Token: ClaudeBot) sammelt Daten für das Training der Claude-Modelle. Claude-SearchBot wird für Suchergebnisse eingesetzt. Anthropic hat sich verpflichtet, robots.txt-Regeln einzuhalten, und empfiehlt die Disallow-Direktive als zuverlässigsten Weg zum Opt-out. IP-Sperren hält Anthropic für weniger geeignet, weil der Crawler dann unter Umständen die robots.txt nicht mehr lesen kann.
Perplexity: PerplexityBot ist kein Trainingsdaten-Crawler
Das ist ein weiterer häufig fehlgeleiteter Punkt. Laut Perplexity-Dokumentation crawlt PerplexityBot (Token: PerplexityBot) explizit nicht für KI-Foundation-Modelle, sondern um aktuelle Webinhalte für Suchantworten abzurufen. Wer in Perplexity-Antworten erscheinen will, lässt ihn durch. Es gibt zusätzlich Perplexity-User für nutzerinitiierte Anfragen, der nach Perplexity-Dokumentation robots.txt-Regeln generell ignoriert, weil nutzerinitiierte Anfragen dort als Ausnahme vom Protokoll gelten, identisch wie ChatGPT-User.
Weitere relevante Bots
CCBot von Common Crawl (Token: CCBot) baut einen öffentlichen Web-Datensatz auf, der von vielen KI-Anbietern als Trainingsdatenbasis genutzt wird. Common Crawl veröffentlicht User-Agent und IP-Ranges und respektiert robots.txt. Amazonbot (Token: Amazonbot) crawlt laut Amazon-Dokumentation zur Verbesserung von Amazon-Diensten und KI-Modellen. meta-externalagent von Meta (Token: meta-externalagent) wird laut Meta-Entwicklerdokumentation für KI-Modelltraining und Inhaltsindexierung eingesetzt und respektiert robots.txt. Bytespider von ByteDance (Token: Bytespider) hat keine offizielle öffentliche Dokumentation. ByteDance hat den Zweck nicht bestätigt. Mehrere unabhängige Forscher haben dokumentiert, dass Bytespider robots.txt-Regeln in einigen Fällen ignoriert hat.
Tabelle: Bot, Betreiber, User-Agent-Token, Zweck
| Bot | Betreiber | robots.txt-Token | Zweck | Blockierbar? |
|---|---|---|---|---|
| GPTBot | OpenAI | GPTBot |
KI-Trainingsdaten | Ja, zuverlässig |
| OAI-SearchBot | OpenAI | OAI-SearchBot |
ChatGPT-Suche | Ja (dann keine ChatGPT-Suchtreffer) |
| ChatGPT-User | OpenAI | ChatGPT-User |
Nutzerinitiiert | Eingeschränkt |
| Google-Extended | Google-Extended |
Gemini/Vertex AI Training | Ja, kein Rankingeffekt | |
| Googlebot | Googlebot |
Google-Suche | Ja, dann kein Ranking | |
| ClaudeBot | Anthropic | ClaudeBot |
KI-Training | Ja, zuverlässig |
| Claude-SearchBot | Anthropic | Claude-SearchBot |
Suchergebnisse | Ja |
| PerplexityBot | Perplexity | PerplexityBot |
Live-Suchantworten | Ja (dann keine Perplexity-Treffer) |
| Perplexity-User | Perplexity | Perplexity-User |
Nutzerinitiiert | Eingeschränkt |
| CCBot | Common Crawl | CCBot |
Öffentlicher Web-Datensatz | Ja, zuverlässig |
| Amazonbot | Amazon | Amazonbot |
Amazon-Dienste, KI-Modelle | Ja, zuverlässig |
| meta-externalagent | Meta | meta-externalagent |
KI-Training, Indexierung | Ja, zuverlässig laut Meta |
| OAI-AdsBot | OpenAI | OAI-AdsBot |
Validiert Anzeigen-Landingpages | Ja (nur relevant bei Anzeigenschaltung) |
| Bytespider | ByteDance | Bytespider |
Undokumentiert, vermutlich KI-Training | Eingeschränkt (ignoriert robots.txt teilweise) |
Alle Token sind exakt so zu schreiben, wie in der jeweiligen offiziellen Dokumentation angegeben. Groß- und Kleinschreibung wird von den meisten Crawlern case-insensitiv behandelt, aber die exakten Schreibweisen aus den Primärquellen sind die sicherste Wahl.
Für Entwickler · überspringbar
Der vollständige robots.txt-Block für Profis
Einsteiger können diesen Abschnitt überspringen. Hier ist ein vollständiger Block, der alle bekannten KI-Crawler zum Stand Juni 2026 sperrt und dabei die seriösen Anbieter über ihre offizielle Token-Schreibweise anspricht.
# KI-Crawler sperren (Stand: Juni 2026)
# Trainingsdaten-Crawler
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: PerplexityBot
Disallow: /
# Eingeschränkte Compliance, zusätzliche Firewall-Sperre empfohlen
User-agent: Bytespider
Disallow: /
Dieser Block kommt entweder am Anfang oder am Ende der bestehenden robots.txt. Jeder User-agent-Block braucht eine eigene Zeile, mehrere Bots in einem Block zu fassen, führt bei manchen Implementierungen zu Parsing-Problemen. Die Standard-Googlebot-Regeln für die Suchmaschine bleiben davon unberührt.
In einer WordPress-Installation liegt die robots.txt unter Einstellungen > Lesen > Virtuelle robots.txt, oder sie wird als echte Datei im Stammverzeichnis abgelegt. Die echte Datei hat Vorrang vor der virtuellen.
Differenziert blockieren statt pauschal sperren
Ein Mittelweg, der in der Praxis für viele kleine und mittelständische Websites passt: Blogartikel und Leistungsseiten für KI-Suchen zugänglich lassen, interne Bereiche, Preislisten und geschützte Downloads sperren.
# Trainingsdaten-Crawler pauschal sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Suchantwort-Crawler gezielt einschränken
User-agent: PerplexityBot
Disallow: /intern/
Disallow: /preise/
Disallow: /kunden-downloads/
Allow: /ratgeber/
Allow: /leistungen/
User-agent: OAI-SearchBot
Disallow: /intern/
Disallow: /preise/
Allow: /ratgeber/
Allow: /leistungen/
In einem Projekt haben wir diese Trennung für einen Fachdienstleister eingerichtet, der einerseits als Quelle in Perplexity-Antworten auftauchen wollte, andererseits seine detaillierten Prozessbeschreibungen nicht in OpenAI-Trainingsdaten sehen wollte. Ergebnis: PerplexityBot und OAI-SearchBot crawlen die öffentlichen Inhalte, GPTBot und ClaudeBot kommen nicht rein.
Schritt für Schritt: KI-Crawler korrekt einrichten
Diese Anleitung gilt für eine bestehende WordPress-Website ohne SSH-Zugang. Der Weg über WP-CLI oder FTP ist identisch, nur der erste Schritt unterscheidet sich.
- Ist-Stand prüfen. Rufen Sie
https://www.ihre-domain.de/robots.txtim Browser auf. Fehlt die Datei ganz, legt WordPress automatisch eine virtuelle an. Prüfen Sie, ob bereits User-agent-Blöcke für KI-Crawler vorhanden sind. Häufiger Befund: Nur ein generischerUser-agent: *-Block und Einträge für klassische Suchmaschinen. - Strategie festlegen. Entscheiden Sie sich je Bot: sperren, zulassen oder teilweise einschränken. Die Tabelle oben hilft dabei. Trainingsdaten-Crawler (GPTBot, ClaudeBot, CCBot, Amazonbot, meta-externalagent) und Such-Crawler (OAI-SearchBot, PerplexityBot) separat bewerten.
- robots.txt anpassen. In WordPress: Einstellungen > Lesen > Virtuelle robots.txt öffnen und die User-agent-Blöcke eintragen. Alternativ eine Datei
robots.txtim Stammverzeichnis ablegen, die hat Vorrang. Jeden Bot in einem eigenen Block, eine Direktive pro Zeile. - Datei im Browser prüfen. Nach dem Speichern
/robots.txtim Browser aufrufen und kontrollieren, ob alle neuen Blöcke sichtbar sind. Einen Browser-Cache-Clear machen, falls der alte Stand noch erscheint. - Mit einem robots.txt-Validator testen. Google Search Console hat unter Einstellungen > robots.txt-Tester einen eingebauten Validator. Dort prüfen, ob die gewünschten Pfade für die eingetragenen User-Agents korrekt blockiert oder erlaubt werden. Alternativ robotstxt.org.
- Eintrag in den Nutzungsbedingungen ergänzen. Eine Formulierung wie „Die Nutzung von Inhalten dieser Website für maschinelles Lernen oder KI-Training ohne ausdrückliche schriftliche Genehmigung ist untersagt“ schafft eine schriftliche Grundlage, auch wenn robots.txt allein kein Rechtsdokument ist.
- Quartalsweise prüfen. Neue KI-Bots tauchen regelmäßig auf. Server-Logs auf unbekannte User-Agents beobachten. Etwa einmal pro Quartal die Liste gegen die Primärquellen abgleichen.
Erlauben oder sperren: die Abwägung
Es gibt kein universell richtiges Vorgehen. Die Entscheidung hängt davon ab, was Ihre Inhalte für Ihr Geschäft bedeuten.
Für ein vollständiges Sperren spricht: Ihre Texte, Konzepte oder Daten sind Ihr eigentliches Kapital. Beratungen, Kanzleien, spezialisierte Fachanbieter und Verlage, die von der Eigenständigkeit ihrer Inhalte leben, haben wenig Grund, Trainingsdaten-Crawlern kostenlosen Zugriff zu geben. Ein Modell, das dieses Wissen aufnimmt und anschließend kostenfrei weitergibt, verkleinert den Wissensvorsprung, der Sie von anderen unterscheidet.
Für selektives Zulassen spricht: KI-gestützte Suchen wie Perplexity, ChatGPT Search und Google AI Overviews zitieren Quellen nur, wenn sie diese abrufen dürfen. Wer dort als verlässliche Quelle erscheint, gewinnt qualifizierten Traffic, weil die Empfehlung bereits in der Antwort steckt. Mehr dazu, wie KI-Systeme Quellen bewerten, steht im Ratgeber GEO: Von KI empfohlen werden.
Eine brauchbare Faustregel nach Bot-Typ: Reine Trainingsdaten-Crawler (GPTBot, ClaudeBot, CCBot) können gesperrt werden, ohne die KI-Sichtbarkeit in Suchantworten zu gefährden. Such-Crawler (OAI-SearchBot, PerplexityBot) geben zumindest für redaktionelle Inhalte frei, wenn KI-Sichtbarkeit das Ziel ist. Google-Extended entscheiden Sie nach Strategie: Wer Gemini nicht als Abnehmer seiner Inhalte will, sperrt es, ohne Google-Ranking-Risiko. Diese Zuordnung sollte jährlich überprüft werden, weil sich die Bot-Landschaft ändert. Wie eine llms.txt als ergänzendes Signal funktioniert, erklärt der Ratgeber llms.txt: KI-Crawlern zeigen, was zählt.
Grenzen der robots.txt
Drei Punkte, die klar benannt werden müssen.
robots.txt ist freiwillig. Es gibt keine technische Erzwingung. OpenAI, Google und Anthropic haben öffentlich zugesagt, das Protokoll einzuhalten, und tun das nach aktuellem Stand. Bytespider hat keine vergleichbare Zusage veröffentlicht, und mehrere Forscher haben Verstöße dokumentiert. Wer sicher sperren will, braucht eine Firewall-Regel auf CDN- oder Serverebene, die auf den User-Agent-String filtert. Das ist die technische Sicherheitsstufe über der robots.txt.
robots.txt schützt keine Inhalte rückwirkend. Was bereits in Trainingsdaten gelandet ist, bleibt dort. Eine robots.txt wirkt ab dem Zeitpunkt ihres Einsatzes auf künftige Crawls.
User-Agent-Strings können gefälscht werden. Beide Seiten. Ein Bot kann einen fremden String angeben. Wer sicher sein will, dass ein Crawler wirklich von OpenAI oder Google stammt, verifiziert dies über Reverse-DNS-Lookup der Quell-IP gegen die offiziell veröffentlichten IP-Ranges (OpenAI: openai.com/gptbot.json, Perplexity: perplexity.com/perplexitybot.json).
Rechtliche Lage in der EU. Die robots.txt ist weder Vertrag noch Gesetz. Die EU-Datenbankrichtlinie 96/9/EG schützt Investitionen von Datenbankherstellern. Die Richtlinie 2019/790 regelt Text- und Data-Mining und ermöglicht einen maschinenlesbaren Vorbehalt. Der EU AI Act verpflichtet Anbieter allgemeiner KI-Modelle zur Transparenz über Trainingsdaten, gibt aber Website-Betreibern keinen direkten Klageweg. Wer seine Inhalte aktiv schützen will, setzt robots.txt, ergänzt einen Nutzungsvorbehalt in den AGB und dokumentiert den Zeitpunkt beider Maßnahmen. Eine Rechtsberatung im Einzelfall ersetzt das nicht. Mehr zu Sicherheits- und Serverheadern, die den technischen Schutz ergänzen, steht im Ratgeber SSL, HTTPS und Sicherheitsheader.
- robots.txt im Browser aufgerufen und auf veralteten Stand geprüft?
- Für jeden KI-Bot eine bewusste Entscheidung getroffen: sperren, zulassen oder selektiv?
- Trainingsdaten-Crawler (GPTBot, ClaudeBot, CCBot) von Such-Crawlern (OAI-SearchBot, PerplexityBot) getrennt behandelt?
- Google-Extended separat von Googlebot konfiguriert?
- Jeden Bot mit exaktem offiziellen Token in eigenem Block eingetragen?
- Datei nach dem Speichern im Browser verifiziert?
- Google Search Console robots.txt-Tester genutzt?
- Nutzungsvorbehalt in AGB oder Impressum ergänzt?
- Quartals-Review im Kalender eingetragen?
- Für Bytespider und ähnliche: zusätzliche Firewall-Regel auf CDN oder Webserver gesetzt?
- Jeder Anbieter betreibt mehrere Bots mit verschiedenen Aufgaben. GPTBot und OAI-SearchBot von OpenAI funktionieren unabhängig voneinander, genau wie Googlebot und Google-Extended.
- Google-Extended hat keinen eigenen Crawler. Es steuert nachgelagert, ob bereits gecrawlte Inhalte für Gemini genutzt werden. Das Ranking in der Google-Suche bleibt unberührt.
- robots.txt ist eine Konvention, keine technische Zugangssperre. Seriöse Anbieter halten sie ein. Für Bytespider und unbekannte Bots braucht es zusätzlich Firewall-Regeln.
- Wer in KI-Suchen erscheinen will, lässt Such-Crawler durch und sperrt Trainingsdaten-Crawler getrennt. Beides pauschal zu sperren, verhindert KI-Sichtbarkeit vollständig.
Häufige Fragen
Verliere ich mein Google-Ranking, wenn ich Google-Extended blockiere?
Nein. Google-Extended steuert ausschließlich, ob Ihre Inhalte für generative Dienste wie Gemini und Vertex AI verwendet werden. Das normale Crawling durch Googlebot und damit Ihr Ranking in der Google-Websuche bleiben vollständig unberührt. Google bestätigt das ausdrücklich in seiner Crawler-Dokumentation.
Halten sich alle KI-Crawler an die robots.txt?
Die großen Anbieter OpenAI, Google, Anthropic und Perplexity haben es öffentlich zugesagt und halten es nach aktuellem Stand ein. Bytespider von ByteDance hat keine vergleichbare Selbstverpflichtung veröffentlicht, und Forscher haben Verstöße dokumentiert. Für Crawler mit unsicherer Compliance hilft nur eine serverseitige oder CDN-seitige Sperre auf den User-Agent-String.
Schadet es meiner Sichtbarkeit in KI-Antworten, wenn ich GPTBot sperre?
GPTBot sammelt Trainingsdaten für KI-Modelle. Die ChatGPT-Suche nutzt OAI-SearchBot, nicht GPTBot. Wer GPTBot sperrt, unterbindet also das Trainingsdaten-Crawling, nicht das Erscheinen in ChatGPT-Suchantworten. PerplexityBot ist wiederum für Perplexity-Antworten zuständig und sollte separat bewertet werden.
Wie oft sollte ich meine robots.txt auf neue KI-Crawler prüfen?
Etwa einmal pro Quartal reicht für die meisten Websites. Die Server-Logs auf unbekannte User-Agents beobachten hilft, neue Crawler früh zu erkennen. Neue Anbieter tauchen unregelmäßig auf, und ein veralteter robots.txt-Stand gibt ein falsches Sicherheitsgefühl. Die Primärquellen der Anbieter sind die verlässlichste Referenz für aktuelle Token-Schreibweisen.
Kann ich einzelne Verzeichnisse für KI-Crawler sperren, andere aber freigeben?
Ja. Die robots.txt-Syntax erlaubt Allow– und Disallow-Direktiven für jeden Bot separat. Sie können GPTBot komplett sperren und OAI-SearchBot gleichzeitig nur für öffentliche Bereiche freigeben. Jeder Bot reagiert nur auf seinen eigenen Block. Ein Beispiel findet sich im Abschnitt „Differenziert blockieren“ weiter oben.
Was bringt die robots.txt zusätzlich zu einer llms.txt?
Beide Dateien haben unterschiedliche Aufgaben. Die robots.txt regelt den Zugang: Darf ein Bot diese Seite überhaupt abrufen? Die llms.txt erklärt die Priorität: Welche Seiten sind die inhaltlich wichtigsten? robots.txt wirkt technisch für alle Crawler, die das Protokoll einhalten. llms.txt ist ein freiwilliger Hinweis ohne Zugangssperrung. Mehr dazu im Ratgeber llms.txt erklärt.
