Wie ChatGPT, Perplexity & Google AI Quellen auswählen

Von Manuel Hack, ihp media · Aktualisiert am 14. Juni 2026

Das Wichtigste in 30 Sekunden

ChatGPT, Perplexity und Google AI Overviews wählen ihre Quellen nach unterschiedlichen Mechanismen: ChatGPT zieht standardmäßig aus seinem Trainingskorpus, Perplexity und Google AI Overviews laden Inhalte per Retrieval-Augmented Generation (RAG) live nach.
Die genauen Auswahlalgorithmen veröffentlichen alle drei Anbieter nicht. Was bekannt ist: Zitierfähige Absätze, belegte Zahlen und klare Autorenschaft wirken sich nachweislich auf Sichtbarkeit aus.
Das GEO-Forschungspaper von Princeton University, Georgia Tech und IIT Delhi zeigt: Das Hinzufügen von Statistiken steigert die Sichtbarkeit in KI-Antworten deutlich; das GEO-Paper misst für gut belegte Inhalte insgesamt bis zu 40 % mehr Sichtbarkeit.
Backlink-Stärke allein reicht nicht: Seiten mit schlechterem Ranking können durch gezielte Optimierung mehr KI-Nennungen erzielen als hochrangige Seiten mit schlecht formulierten Texten (GEO-Paper, Aggarwal et al. 2024).

„Warum werde ich bei ChatGPT nicht erwähnt, obwohl ich bei Google auf Seite 1 stehe?“ Diese Frage stellen sich viele Unternehmer, die ihre klassische SEO im Griff haben. Die Antwort liegt in einem grundlegenden Unterschied: Suchmaschinen sortieren, generative KI-Systeme formulieren. Wer zitiert wird, entscheidet ein anderer Mechanismus.

Warum KI-Quellenwahl nicht gleich Google-Ranking ist

Kurz gesagt: Google sortiert Webseiten nach Relevanz und gibt dem Nutzer eine Liste. Ein KI-Antwortsystem liest diese Seiten, versteht den Inhalt und formuliert eine eigene Antwort daraus. Welche Quelle dabei einfließt, hängt weniger vom Ranking als davon ab, ob die Seite eine konkrete Frage in einem einzigen Absatz direkt beantwortet.

Google rankt eine Seite nach hunderten Faktoren und zeigt sie dann in einer Liste. Der Nutzer wählt selbst, welchen Link er anklickt. Ein KI-Antwortsystem arbeitet anders: Es sucht im Web, wählt Textpassagen aus, die eine konkrete Frage beantworten, und formuliert daraus eine eigene Antwort. Der Nutzer bekommt einen fertigen Text, keine Liste.

Klassisches SEO hat das Ziel, den Nutzer auf Ihre Seite zu bringen. KI-Sichtbarkeit hat ein anderes Ziel: das System soll Ihre Seite als vertrauenswürdig genug einstufen, um daraus zu zitieren, auch wenn der Nutzer danach nicht klickt. Dieses Ziel erreicht man nicht durch dieselben Mittel.

Ein konkreter Unterschied: Eine Seite, die mit drei Absätzen Firmengeschichte beginnt, bevor sie zur eigentlichen Frage kommt, verliert gegenüber einer Seite, die im ersten Satz antwortet. Das ist nicht eine Frage des Rankings, sondern des Textformats.

Trainingsdaten vs. Live-Retrieval: die zwei Grundmuster

Hinter den drei bekanntesten Systemen stecken zwei grundlegend verschiedene Ansätze. Den Unterschied zu verstehen, entscheidet darüber, welche Optimierungsmaßnahmen sinnvoll sind und welche wirkungslos bleiben.

Antworten aus dem Trainingskorpus

ChatGPT im Standardmodus ohne aktivierte Websuche antwortet aus dem, was das Modell beim Training gelernt hat. Der Trainingskorpus von GPT-4 umfasst einen Schnappschuss des Internets bis zu einem bestimmten Stichtag. Welche konkreten Seiten darin enthalten sind, kommuniziert OpenAI nicht öffentlich. Sicher ist: Häufig zitierte, breit verlinkte und thematisch dichte Quellen hatten eine höhere Chance, in die Trainingsdaten aufgenommen zu werden als dünne, kaum verlinkte Seiten.

Der entscheidende Punkt für Website-Betreiber: Änderungen an Ihrer Seite heute haben auf Trainingskorpus-basierte Antworten keinen sofortigen Effekt. Sie greifen erst, wenn das nächste Modell mit neueren Daten trainiert wird, was Monate bis Jahre dauern kann. Für aktuelle Sichtbarkeit in ChatGPT-Antworten ist die aktivierte Websuche-Funktion relevant, die einen anderen Mechanismus nutzt.

Live-Retrieval per RAG

Perplexity und Google AI Overviews arbeiten anders. Sie nutzen das Prinzip der Retrieval-Augmented Generation (RAG), das 2020 in einem Paper von Meta AI-Forscher Lewis et al. beschrieben wurde: Das System sucht bei jeder Anfrage aktiv im Web, lädt relevante Textpassagen aus aktuellen Seiten nach und nutzt das Sprachmodell, um daraus eine strukturierte Antwort zu formulieren.

Bei RAG-Systemen gilt: Änderungen auf Ihrer Website wirken nach dem nächsten Crawl, oft innerhalb von Tagen bis Wochen. Und die Frage, ob Ihre Seite zitiert wird, entscheidet sich nicht beim Training, sondern beim Abruf der Seite, also im Moment der Nutzeranfrage.

ChatGPT mit aktivierter Websuche verhält sich ebenfalls wie ein RAG-System. Laut der offiziellen OpenAI-Dokumentation zu Web Search Tools ruft das Modell in diesem Modus aktuelle Webseiten ab und zitiert diese als Quellen in der Antwort.

Wie die drei Systeme konkret vorgehen

Trotz des gemeinsamen RAG-Grundprinzips gibt es Unterschiede in der Umsetzung. Alle drei Anbieter veröffentlichen ihre Auswahlalgorithmen nicht vollständig. Was bekannt ist, stammt aus offiziellen Dokumentationen und der GEO-Forschung.

Perplexity

Perplexity ist von den dreien am transparentesten, was die Architektur betrifft. Das System sucht bei jeder Anfrage aktiv im Web, kombiniert mehrere Quellen und belegt jede Aussage in der Antwort mit einem nummerierten Quellenlink. Das System legt nach eigener Darstellung den Fokus auf aktuelle Webergebnisse, präzise Quellenangaben und eine kompakte Synthese.

Bevorzugt werden Seiten, die thematisch dicht sind, direkt zur gesuchten Frage passen und sich maschinell sauber gliedern lassen. Klare Überschriften, in sich abgeschlossene Absätze und ein konsistentes Thema helfen unmittelbar. Wichtig: Perplexity blockiert auch GPTBot nicht explizit im robots.txt, was bedeutet, dass Seiten, die KI-Crawler aktiv blockieren, aus den Antworten verschwinden können.

ChatGPT mit Websuche

ChatGPT greift im Such-Modus auf einen Suchindex zu und wählt nach demselben Prinzip aus: nicht der popularste Treffer, sondern der, dessen Text die Frage am direktesten beantwortet. Lange Einleitungen ohne Informationsgehalt, Inhalte hinter JavaScript-Lazy-Loading und Cookie-Banner-Texte, die den eigentlichen Inhalt überlagern, wirken sich nachteilig aus, weil der Crawler sie entweder nicht versteht oder sie als Inhalt statt als Rahmenlayout wertet.

OpenAI empfiehlt in seiner Dokumentation zu Web-Search-Tools explizit, dass Seiten den GPTBot in der robots.txt zulassen sollten, damit aktuelle Inhalte in Antworten einfließen können.

Google AI Overviews

Google AI Overviews, früher Search Generative Experience, bauen auf Googles eigener Crawling-Infrastruktur und dem bestehenden Google-Index auf. Die offizielle Google-Dokumentation zu AI Overviews stellt klar: Es gibt keine zusätzlichen Anforderungen, um in AI Overviews oder AI Mode zu erscheinen, und keine speziellen Optimierungen sind dafür notwendig. Voraussetzung ist lediglich, dass die Seite indexiert und für Google-Snippets freigegeben ist. Google empfiehlt als Grundlage das Übliche: hilfreiche, verlässliche Inhalte, technische Zugänglichkeit und saubere Struktur. Ob eine Seite dann tatsächlich zitiert wird, entscheidet sich an der Passung der Textpassage zur Frage, nicht am Rang.

Google erklärt auf der Seite How Search Works, dass das Crawling, die Indexierung und die Qualitätsbewertung die Grundlage bilden, auf der KI-Funktionen aufbauen. Eine Seite, die Google nicht crawlen kann oder die technisch fehlerhaft ist, erscheint weder im klassischen Ranking noch in AI Overviews.

Die genaue Gewichtung der Faktoren innerhalb von AI Overviews veröffentlicht Google nicht. Aus der Forschung und Beobachtungen lässt sich ableiten: Eindeutige Passage-Relevanz für die konkrete Frage, nachweisbare Autoritätssignale und technisch zugänglicher Inhalt sind die drei wichtigsten Hebel.

Welche Signale die Auswahl steuern

Das GEO-Forschungspaper von Aggarwal et al. (Princeton University, Georgia Tech und IIT Delhi, veröffentlicht auf der KDD 2024) ist die erste systematische Studie zu diesem Thema. Das Team hat verschiedene Content-Optimierungen in kontrollierten Experimenten getestet und deren Wirkung auf die Sichtbarkeit in KI-Antworten gemessen. Die Ergebnisse sind konkret und belegt, anders als die meisten Agenturaussagen zum Thema.

Zitierfähige Absätze

Der stärkste einzelne Hebel ist die Formulierung in sich abgeschlossener Absätze. Ein Absatz ist zitierfähig, wenn er eine vollständige Aussage enthält, die ohne Kontext des restlichen Textes verständlich ist. „Die Frist für die DSGVO-Meldepflicht bei Datenpannen beträgt 72 Stunden nach Feststellung“ kann ein KI-System direkt übernehmen. „Wie oben erwähnt, gilt dies entsprechend“ kann es nicht. Diese Formulierungsdisziplin ist kein Styleguide-Thema, sondern direkte Vorbereitung für maschinelle Auswertung.

Statistiken und belegte Zahlen

Das GEO-Paper zeigt: Das Einfügen konkreter Statistiken in Texte erhöhte die Sichtbarkeit in KI-Antworten in den Experimenten um bis zu 40 %. Das Hinzufügen direkter Quellenbelege im Fließtext (also nicht nur im Quellenblock am Ende) brachte noch einmal spürbar mehr Sichtbarkeit. Der Grund ist nachvollziehbar: Ein belegter Fakt kann ein KI-System übernehmen und mit Quellenlink versehen. Eine unbelegte Behauptung, die das System nicht verifizieren kann, wird eher umgangen.

Autorenschaft und Vertrauenssignale

Generative Systeme beantworten die Frage nach der Autoritätsbewertung ähnlich wie Googles E-E-A-T-Konzept: Ist ein Autor erkennbar? Gibt es externe Bestätigungen für die Kompetenz dieser Person oder Institution? Handelt es sich um ein dauerhaft gepflegtes Angebot mit erkennbarem Veröffentlichungsrhythmus? Eine Autorenbox mit Berufsangabe und verlinkten Referenzen signalisiert mehr Vertrauenswürdigkeit als eine anonyme Seite. Wie das konkret umgesetzt wird, zeigt der Ratgeber E-E-A-T für kleine Unternehmen.

Technische Zugänglichkeit für KI-Crawler

Was ein KI-System nicht lesen kann, kann es nicht zitieren. Drei technische Punkte sind direkt relevant: Erstens die robots.txt, die nicht fälschlicherweise GPTBot, ClaudeBot oder PerplexityBot blockieren sollte. Zweitens sauberes HTML ohne JavaScript-Abhängigkeiten für den eigentlichen Textinhalt, damit ein Crawler den Kerntext ohne Scriptausführung lesen kann. Drittens schnelle Ladezeiten, da Crawler bei Timeouts schlicht abbrechen.

Eindeutigkeit der Entität

KI-Systeme müssen verstehen, wer oder was auf einer Seite beschrieben wird. Stimmen Name, Adresse, Tätigkeitsfeld und Inhaber-Information zwischen Website, Google Business Profile und Branchenverzeichnissen überein, ist die Entität „scharf gestellt“. Widersprüchliche Angaben, also ein anderer Firmennamen auf der Website als im Google Business Profile, verwirren das Modell und senken die Zitierwahrscheinlichkeit. Mehr dazu im Ratgeber Ihre Marke als Entität.

Faktoren im Überblick: Wirkung und Beeinflussbarkeit

Die Tabelle fasst die bekannten Faktoren zusammen. Die Wirkungsangaben für strukturelle Faktoren stammen aus dem GEO-Paper (Aggarwal et al.). Für technische und externe Faktoren gibt es keine kontrollierte Primärstudie. Die Einschätzungen dort beruhen auf offiziellen Anbieter-Dokumentationen und eigener Projekterfahrung.

Faktor	Wirkung auf KI-Sichtbarkeit	Beeinflussbar?
Zitierfähige, in sich abgeschlossene Absätze	Hoch (belegt, GEO-Paper)	Ja, durch Umschreiben der Texte
Statistiken und konkrete Zahlen im Text	Bis +33 % (GEO-Paper)	Ja, wenn belegbare Zahlen vorhanden
Direkte Quellenbelege im Fließtext	Bis +28 % (GEO-Paper)	Ja, immer möglich
FAQ-Schema auf relevanten Seiten	Hoch (Struktursignal für RAG)	Ja, technisch einfach umsetzbar
Erkennbare Autorenschaft und E-E-A-T	Mittel bis hoch	Ja, durch Autorenbox und externe Erwähnungen
Technische Crawlbarkeit (robots.txt, sauberes HTML)	Voraussetzung	Ja, technische Änderung
Eindeutigkeit der Entität (NAP-Konsistenz)	Mittel	Ja, durch Datenpflege
Klassisches Google-Ranking	Korreliert, aber kein direkter Kausalfaktor	Ja, aber keine Garantie für KI-Sichtbarkeit
Reine Keyword-Dichte	Negativ (-10 % lt. GEO-Paper bei Überladen)	Zu vermeiden
Backlink-Profil allein	Schwacher Faktor für KI-Selektion	Nur mittelbar relevant

Ein Beispiel aus der Praxis

Ein Handwerksbetrieb, für den wir eine neue Website geplant haben, stand bei Google für lokale Anfragen bereits auf Seite 1. In ChatGPT und Perplexity wurde er trotzdem nicht genannt, wenn ein potenzieller Kunde nach dem passenden Fachbetrieb in der Region fragte.

Die Analyse zeigte: Die Leistungsseiten begannen alle mit einem Einleitungs-Absatz über die Firmenphilosophie, bevor eine Leistung konkret beschrieben wurde. Es gab keine belegten Zahlen, keine Quellenangaben und keinen erkennbaren Autor. Die Seite war für Google-Crawler tadellos, für KI-Crawler aber ein stumpfes Werkzeug.

Nach der Umstrukturierung: Die wichtigste Leistungsbeschreibung beginnt jetzt mit dem konkreten Leistungsumfang im ersten Satz. Regionalbezug, Projektzahlen und ein verlinkter Quellenbeleg für Verbraucherangaben wurden ergänzt. Eine Autorenbox mit dem Namen und der Qualifikation des Inhabers wurde hinzugefügt. Das FAQ-Schema wurde auf allen Hauptseiten implementiert. Nach dem nächsten Crawl durch Perplexity erschien der Betrieb in entsprechenden Regionalanfragen.

Der Aufwand war überschaubar: keine neue Website, keine neuen Inhalte, nur eine strukturelle Überarbeitung der bestehenden Texte. Mehr zu dieser Herangehensweise im Ratgeber Zitierfähige Inhalte schreiben.

Sofort-Checkliste

Diese Punkte können Sie heute selbst durchgehen. Sie decken die beeinflussbarsten Faktoren ab, ohne dass dafür ein technischer Umbau nötig ist.

Beginnt jede wichtige Seite mit dem eigentlichen Inhalt statt mit einer allgemeinen Einleitung?
Gibt es auf jeder Kernseite mindestens einen Absatz, der eine konkrete Frage vollständig und ohne Kontext beantwortet?
Sind Zahlen und Fakten direkt im Fließtext mit Quellenlinks belegt, nicht nur im Quellenblock am Ende?
Ist ein erkennbarer Autor mit Name und Hintergrund genannt?
Gibt es auf Kern- und Leistungsseiten ein FAQ-Schema mit realen Kundenfragen?
Erlaubt die robots.txt GPTBot, ClaudeBot und PerplexityBot?
Stimmen Firmenname, Adresse und Telefon auf Website, Google Business Profile und Verzeichnissen überein?
Ist der Textinhalt ohne JavaScript-Ausführung lesbar, also im Seitenquelltext sichtbar?
Wird reines Keyword-Wiederholen vermieden, das den Text aufbläht ohne Informationsmehrwert?

Das Wichtigste zum Mitnehmen

ChatGPT antwortet standardmäßig aus Trainingsdaten. Perplexity und Google AI Overviews nutzen Live-Retrieval per RAG und reagieren schneller auf Änderungen.
Die Auswahlalgorithmen sind nicht vollständig öffentlich. Was messbar funktioniert: zitierfähige Absätze, belegte Zahlen und erkennbare Autorenschaft.
Ein gutes Google-Ranking korreliert mit KI-Sichtbarkeit, ist aber keine Garantie. Seiten mit schlechterem Ranking können durch strukturelle Optimierung mehr KI-Nennungen erzielen als hochrangige Seiten mit schlecht formulierten Texten.
Reine Keyword-Dichte schadet bei KI-Systemen aktiv: Das GEO-Paper zeigt einen Rückgang der Sichtbarkeit um 10 %, wenn Texte mit Suchanfragen-Keywords überladen werden.

Häufige Fragen

Was ist der Unterschied zwischen ChatGPT-Antworten aus Trainingsdaten und Antworten mit Websuche?

Im Standardmodus ohne Websuche antwortet ChatGPT aus seinem gespeicherten Trainingskorpus, der einen Datenschnitt bis zu einem bestimmten Stichtag enthält. Mit aktivierter Websuche ruft das Modell aktuelle Seiten ab und zitiert sie als Quellen, ähnlich wie Perplexity. Die Optimierung für beide Modi folgt unterschiedlichen Zeitplänen: Trainingsdaten-Sichtbarkeit entsteht langfristig durch breite Verlinkung und Inhaltsqualität, RAG-Sichtbarkeit durch strukturelle Textoptimierung, die nach dem nächsten Crawl greift.

Kann ich beeinflussen, ob meine Seite in den Trainingskorpus eines KI-Modells aufgenommen wird?

Nur indirekt. Anbieter wie OpenAI beschreiben ihre Trainingsdaten-Zusammensetzung nicht im Detail. Bekannt ist, dass breit verlinkte, häufig zitierte Seiten mit hoher thematischer Dichte bessere Chancen haben. Direkt ablehnen können Sie die Aufnahme über robots.txt-Einträge wie CCBot, der für manche Trainingsdaten-Crawl-Bots genutzt wird. Das hat aber Nachteile für die Sichtbarkeit in RAG-Systemen, wenn Sie dabei auch aktuelle Such-Bots blockieren.

Muss ich meine Website komplett neu aufbauen, um in KI-Antworten zu erscheinen?

In den meisten Fällen nicht. Die wirksamsten Maßnahmen, also zitierfähige Absätze formulieren, Quellenbelege im Text ergänzen, FAQ-Schema einbauen, sind Textarbeit und technische Ergänzungen, kein Neuaufbau. Wo ein Neuaufbau sinnvoll ist, ist wenn die Grundstruktur so veraltet ist, dass sauberes HTML für Crawler nicht mehr erreichbar ist.

Wie schnell wirken Änderungen auf die KI-Sichtbarkeit?

Bei RAG-Systemen wie Perplexity und Google AI Overviews nach dem nächsten Crawl Ihrer Seite, das je nach Aktualisierungsfrequenz Ihrer Website zwischen Tagen und Wochen dauern kann. Bei ChatGPT ohne Websuche erst beim nächsten Modell-Training, was Monate bis Jahre dauern kann. ChatGPT mit aktivierter Websuche verhält sich wie Perplexity.

Was ist Retrieval-Augmented Generation (RAG) genau?

RAG ist ein Architekturmuster, das 2020 in einem Forschungspaper von Lewis et al. (Meta AI) beschrieben wurde. Das Prinzip: Ein Sprachmodell sucht bei jeder Anfrage zuerst in einer externen Wissensquelle (dem Web oder einer Datenbank) nach relevanten Textpassagen, liest diese und formuliert daraus eine Antwort. Das erlaubt aktuelle Informationen jenseits des Trainingsschnitts und belegte Quellenangaben in der Antwort. Perplexity und Google AI Overviews setzen dieses Prinzip mit ihren eigenen Web-Crawlern um.

Schadet es, wenn ich KI-Crawler in der robots.txt blockiere?

Es hängt davon ab, welchen Crawler Sie blockieren. GPTBot (OpenAI), ClaudeBot (Anthropic) und PerplexityBot sind aktive Such-Crawler für RAG-Systeme. Wer sie blockiert, schließt sich aus diesen Antwort-Systemen aus. Davon zu trennen sind Crawler, die für das Training von Modellen genutzt werden, wie CCBot. Die Frage, welche Bots Sie zulassen wollen, ist eine bewusste Entscheidung mit direkter Wirkung auf Ihre Sichtbarkeit.

Ist die Optimierung für KI-Antworten dasselbe wie GEO?

GEO steht für Generative Engine Optimization und beschreibt alle Maßnahmen, damit KI-Antwortsysteme eine Website als Quelle auswählen. Der Begriff wurde durch das GEO-Forschungspaper geprägt. Das Ziel, in KI-Antworten zitiert zu werden, und der Begriff GEO meinen dasselbe. Mehr dazu im Ratgeber GEO: Von ChatGPT empfohlen werden, und die Kombination beider Disziplinen beschreibt SEO und GEO kombinieren.

Quellen und weiterführende Informationen: Aggarwal et al.: GEO: Generative Engine Optimization (arXiv 2311.09735, KDD 2024); Lewis et al.: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (arXiv 2005.11401, Meta AI 2020); OpenAI: Web Search Tools (Dokumentation); Perplexity AI: Dokumentation; Google Search Central: AI Overviews; Google: How Search Works; Google: Overview of Google Crawlers. Stand: Juni 2026. Dieser Artikel ist eine fachliche Einordnung auf Basis öffentlicher Dokumentationen und peer-reviewter Forschung. Die genauen Auswahlmechanismen aller genannten Systeme sind nicht vollständig öffentlich.

Wie ChatGPT, Perplexity und Google AI ihre Quellen auswählen