Eigene Daten und Studien: Warum KI sie besonders zitiert

Von Manuel Hack, ihp media · Aktualisiert am 20. Juni 2026

Das Wichtigste in 30 Sekunden

Eigene Daten, Umfragen und Benchmarks gehören laut GEO-Paper (KDD 2024) zu den Methoden, die die Sichtbarkeit in KI-Antworten am stärksten steigern.
KI-Systeme zitieren originäre Quellen bevorzugt, weil sie einen konkreten Ankerpunkt bieten: eine Zahl, eine Methodik, eine Herkunft.
Auch kleine Unternehmen können zitierfähige Primärdaten erzeugen: eine Kundenbefragung mit 150 qualifizierten Antworten und offengelegter Methodik reicht aus.
Daten müssen offen zugänglich, in HTML aufgebaut und mit schema.org/Dataset ausgezeichnet sein, sonst bleiben sie für KI-Systeme unsichtbar.

ChatGPT, Perplexity und der Google AI Overview formulieren täglich Millionen von Antworten. Welche Quellen dabei zitiert werden, entscheidet sich nicht zufällig. KI-Systeme suchen nach Ankerpunkten: konkreten Zahlen, nachvollziehbaren Methoden, zuordenbaren Herkunftsangaben. Wer eigene Daten veröffentlicht, liefert genau das. Dieser Ratgeber erklärt, warum Primärdaten so stark funktionieren, welche Formate sich für den Mittelstand eignen und wie Sie Ihre Erhebung so aufbereiten, dass sie zitiert wird.

Zur Abgrenzung: Zitierfähige Inhalte schreiben behandelt das Schreib-Handwerk, also wie Sie Sätze und Absätze formulieren, damit KI sie aufgreift. Hier geht es um die Ebene darunter: welche Art von Inhalt strukturell bevorzugt zitiert wird, und warum eigene Daten dabei ganz oben stehen.

Warum Primärdaten von KI-Systemen bevorzugt zitiert werden

Kurz gesagt: KI-Systeme brauchen Ankerpunkte: Zahlen, Methoden, eine belegbare Herkunft. Eigene Erhebungen liefern all das in einem. Ein allgemeiner Ratgeber ohne Zahlenbasis gibt keinen Ankerpunkt her. Ein Satz wie „In unserer Kundenbefragung 2025 mit 340 Teilnehmern nannten 67 % Lieferzeit als Hauptgrund für Warenkorbabbrüche“ gibt einen.

Generative KI-Systeme setzen Antworten aus mehreren Quellen zusammen. Für diese Synthese suchen sie Stellen, die eine Frage direkt beantworten und sich dabei auf etwas Konkretes stützen. Ein allgemeiner Satz wie „Kunden legen Wert auf schnelle Lieferung“ bietet nichts Zitierbares: keine Zahl, kein Datum, keine Herkunft. Ein Satz mit eigenen Daten dahinter bietet alles davon auf einmal.

Dahinter steckt das Prinzip der Attributierbarkeit: Das KI-System kann die Aussage mit einer Herkunft versehen. „Laut ihp media Agenturmonitor 2025″ ist ein vollständiger Quellenhinweis. Ohne diesen Anker weicht das Modell auf eine Quelle aus, die einen liefert. Das gilt unabhängig davon, ob Ihr Text sonst besser geschrieben ist als die Konkurrenz.

Hinter vielen aktuellen KI-Anwendungen steckt das Prinzip Retrieval-Augmented Generation, kurz RAG: Das Modell durchsucht externe Quellen, bevor es antwortet, und zieht das Gefundene in die Antwort ein. Was es dabei aufgreift, folgt ähnlichen Kriterien wie eine redaktionelle Entscheidung. Gefragt ist, was spezifisch, nachprüfbar und einer klaren Herkunft zuzuordnen ist. Wie KI-Systeme Quellen auswählen erklärt diesen Mechanismus ausführlicher.

Was das GEO-Paper dazu sagt

Die bislang präziseste Messung dazu stammt aus dem Paper „GEO: Generative Engine Optimization“ von Aggarwal et al. (Princeton University, IIT Delhi), veröffentlicht auf der ACM KDD 2024. Das Team testete systematisch, welche inhaltlichen Änderungen die Sichtbarkeit in generierten Antworten erhöhen.

Das Ergebnis: Optimierte Dokumente erreichten im besten Fall einen Sichtbarkeits-Uplift von bis zu 40 % gegenüber unveränderten Texten. Dieser Wert aus dem Abstract bezieht sich auf die Kombination mehrerer Methoden, nicht auf eine einzelne. Wichtig für die richtige Einordnung: Die Metrik heißt Position-Adjusted Word Count. Sie misst, wie viel Text aus einer Quelle in der generierten Antwort auftaucht und gewichtet dabei, ob die Stelle früh oder spät in der Antwort steht.

Die Tabellenwerte sind absolute Metrik-Scores, keine prozentualen Uplifts je Methode. Statistiken einbauen und Quellen belegen liegen eng beieinander. Keyword-Stuffing ist die einzige Methode, die aktiv schadet. Quelle: Aggarwal et al., GEO: Generative Engine Optimization, ACM KDD 2024.

Zwei Befunde aus dem Paper sind für diesen Artikel besonders relevant. Erstens: Statistics Addition und Quotation Addition erzielen die höchsten Einzelscores (25,9 und 27,8 gegenüber der Baseline von 19,5). Sie wirken, weil sie genau das einbauen, was KI-Systeme als Ankerpunkt brauchen: belegbare Zahlen mit Herkunftsangabe. Zweitens: Keyword-Stuffing ist die einzige getestete Methode, die die Sichtbarkeit senkt. Wer Texte mit Suchbegriffen überhäuft, schadet sich aktiv. Der GEO-Überblick erklärt das breitere Konzept.

Einschränkung zum Paper: Die Experimente liefen auf einem GPT-3.5-turbo-basierten System und Perplexity. Ob identische Werte für alle heutigen Modelle gelten, ist nicht gesichert. Die Richtung ist aber konsistent und durch das Verhalten aktueller Systeme in der Praxis bestätigt: Konkretheit und Belegbarkeit helfen, Aufblähung schadet.

Welche eigenen Daten für den Mittelstand funktionieren

Eigene Daten müssen keine Langzeitstudie sein. Es reicht, Erkenntnisse aus der eigenen Praxis, dem eigenen Kundenstamm oder einer selbst durchgeführten Erhebung in eine offen zugängliche, klar beschriebene Form zu bringen. Vier Typen eignen sich für den Mittelstand besonders.

Kundenbefragungen und Umfragen

Schon einige Hundert qualifizierte Antworten aus einer klar definierten Zielgruppe reichen, um eine zitierfähige Quelle zu schaffen. Entscheidend ist nicht die Stichprobengröße, sondern die methodische Transparenz: Erhebungszeitraum, Zielgruppe und Fragestellung müssen dokumentiert sein. Eine Befragung von 200 Handwerksbetrieben zu Digitalisierungsthemen mit offenem Methodikteil ist für KI-Systeme wertvoller als eine vage Zusammenfassung ohne Angaben, wie die Daten entstanden sind.

Interne Analysen und Projektbenchmarks

Ein Softwareunternehmen, das aus anonymisierten Nutzungsdaten einen Branchen-Benchmark ableitet, schafft eine Quelle, die es kein zweites Mal gibt. Dasselbe gilt für eine Agentur, die aus abgeschlossenen Projekten Richtwerte für Ladezeiten, Conversion-Raten oder Absprungquoten gewinnt. Der Wert entsteht aus der Originalität, nicht aus dem Umfang.

Fallstudien mit Messwerten

„Wir haben die Website eines Kunden optimiert“ ist keine Quelle. „Nach Optimierung der Core Web Vitals sank der LCP von 4,1 auf 1,8 Sekunden, die Absprungrate fiel von 67 auf 51 Prozent“ ist eine. Konkrete Vorher-nachher-Werte sind für KI-Systeme deutlich aussagekräftiger als allgemeine Erfolgsbeschreibungen. Sie sind gleichzeitig besser für Interessenten, weil sie zeigen, was tatsächlich passiert.

Jährliche Datenreports als eigenständige Seiten

Wer einen Jahresüberblick oder einen Branchenbericht als gut strukturierte HTML-Seite veröffentlicht statt als schwer indexierbares PDF, hat strukturell bessere Chancen, in KI-Antworten aufzutauchen. Ein fest etablierter Jahresbericht erzeugt mit der Zeit eine Zeitreihe: Jede neue Ausgabe macht die vorherigen wertvoller, weil Veränderungen über die Zeit nachvollziehbar werden.

Wie Sie eigene Daten erheben

Eine jährliche Kundenbefragung ist der einfachste Einstieg: kein externes Budget nötig, die Auswertung geht im eigenen Haus, und das Ergebnis gehört Ihnen vollständig. Vier Schritte reichen.

Schritt 1: Thema und Zielgruppe festlegen

Fragen Sie nach etwas, das für Ihre Branche relevant ist und das Sie aus Ihrer eigenen Praxis heraus beurteilen können. Ein Handwerker könnte fragen, welche Informationen Kunden vor dem ersten Anruf suchen. Eine Unternehmensberatung könnte ermitteln, welche Digitalisierungshemmnisse mittelständische Firmen nennen. Das Thema sollte eng genug sein, dass die Antworten spezifisch werden, und breit genug, dass andere in der Branche sich dafür interessieren.

Schritt 2: Fragebogen und Tool

Für einfache Befragungen reicht Google Forms (kostenlos; DSGVO-konform nur bei entsprechender Einwilligung und vollständigem Datenschutzhinweis, Daten-Speicherort prüfen). Wer mehr Kontrolle über Datenspeicherort und Design braucht, nutzt LimeSurvey (Open Source, selbst gehostet). Typeform eignet sich für Befragungen mit höheren Response-Raten durch modernes Interface. Halten Sie den Fragebogen kurz: fünf bis acht Fragen erzeugen mehr vollständige Antworten als zwanzig.

Schritt 3: Stichprobe und Dokumentation

Beschreiben Sie von Anfang an, wen Sie befragen und wie. Drei Angaben sind Pflicht: Erhebungszeitraum (Monat und Jahr), Beschreibung der Zielgruppe (Branche, Unternehmensgröße, Region) und Rekrutierungsweg (bestehende Kunden, Newsletter, Soziale Netzwerke). Diese Methodiktransparenz ist der Unterschied zwischen einer Quelle und einer Behauptung.

Schritt 4: Auswertung und Veröffentlichung

Die Auswertung braucht keine Statistiksoftware. Einfache Prozentwerte aus Multiple-Choice-Fragen, ergänzt durch ausgewählte Freitext-Zitate, reichen für einen zitierfähigen Report. Veröffentlichen Sie die Ergebnisse auf einer eigenen HTML-Seite mit dem Datum, der Methodikbeschreibung und den wichtigsten Zahlen als Text, nicht nur als Bild.

Wie Sie Daten zitierfähig aufbereiten

Kurz gesagt: Drei Angaben machen eine Zahl zitierfähig: die Zahl selbst, die Methodik (wer wurde wann wie befragt) und die Herkunft (Ihr Name oder Ihr Firmenname). Fehlt eines davon, ist der Ankerpunkt unvollständig.

Eine zitierfähige Datenpublikation braucht vier Elemente: einen beschreibenden Titel, der die Zielgruppe und den Zeitraum nennt; eine Methodikbeschreibung mit Stichprobenumfang, Erhebungszeitraum und Rekrutierungsweg; die Hauptergebnisse als Fließtext (nicht nur als Grafik) mit den wichtigsten Zahlen direkt im Satz; und das Veröffentlichungsdatum.

Ein Beispiel: Statt „Kunden wünschen schnelle Reaktionszeiten“ schreiben Sie: „In unserer Kundenbefragung vom März 2025 (n=280, mittelständische Handwerksbetriebe im DACH-Raum) nannten 71 % eine Reaktionszeit von unter 24 Stunden als wichtigstes Auswahlkriterium.“ Diese Version hat einen Ankerpunkt. KI-Systeme können sie zuordnen, weitergeben und mit anderen Quellen abgleichen.

Vermeiden Sie es, Daten nur in Grafiken zu zeigen. Ein Schaubild ohne erklärenden Fließtext ist für KI-Systeme schwerer auswertbar als ein Satz mit denselben Zahlen. Zeigen Sie beides: die Grafik für menschliche Leser, den Fließtext mit denselben Zahlen für die maschinelle Verarbeitung. Was nur als Bild existiert, ohne Alternativtext und ohne Entsprechung im Fließtext, ist für KI-Systeme faktisch unsichtbar.

Schema.org/Dataset: die technische Auszeichnung

Wer eine Datenpublikation veröffentlicht, sollte sie mit schema.org/Dataset auszeichnen. Google verlangt für Dataset-Markup zwei Pflichtfelder: name (beschreibender Titel) und description (50 bis 5.000 Zeichen). Zusätzlich empfiehlt Google die Felder creator, datePublished, temporalCoverage (Erhebungszeitraum) und keywords.

Das Schema lässt sich als JSON-LD im <head> einbetten:

{
  "@context": "https://schema.org",
  "@type": "Dataset",
  "name": "ihp media Agenturmonitor 2025: Digitalisierung im Mittelstand",
  "description": "Kundenbefragung unter 340 mittelständischen Unternehmen im DACH-Raum, März 2025.",
  "creator": { "@type": "Organization", "name": "ihp media" },
  "datePublished": "2025-04",
  "temporalCoverage": "2025-03",
  "keywords": ["Mittelstand", "Digitalisierung", "Website", "Kundenbefragung"]
}

Das Markup macht die Datenveröffentlichung für Googles Dataset Search auffindbar und signalisiert maschinellen Verarbeitungssystemen, dass es sich um strukturierte Primärdaten handelt. Es ersetzt nicht die inhaltliche Qualität, verstärkt aber deren Wirkung.

Datentypen im Überblick: Aufwand und Zitierwert

Datentyp	Aufwand	Zitierwert für KI	Besonderheit
Kundenbefragung (100–500 Teilnehmer)	gering bis mittel	hoch	Methodik offenlegen, Datum nennen
Projektbenchmark aus eigenen Daten	mittel	sehr hoch	Einzigartigkeit ist der Hauptvorteil
Fallstudie mit Messwerten	gering	hoch	Vorher-nachher-Zahlen, anonymisierbar
Jahresbericht als HTML-Seite	mittel bis hoch	sehr hoch	Zeitreihe über Jahre aufbauen
PDF-Studie ohne HTML-Version	mittel	gering	Schwer crawlbar, für KI fast unsichtbar
Grafik ohne Fließtext-Entsprechung	gering	sehr gering	Bildinhalte werden von KI nicht gelesen

Praxisbeispiel: Wie ein kleiner Agenturmonitor entsteht

In einem Projekt haben wir für eine kleine Webagentur eine jährliche Kundenbefragung aufgebaut, die mit minimalem Aufwand eine zitierfähige Quelle erzeugt. Der Ablauf: Im März eines jeden Jahres geht ein Google-Forms-Fragebogen mit sieben Fragen an alle Bestandskunden der letzten zwei Jahre. Gefragt wird nach den wichtigsten Entscheidungskriterien bei der Website-Wahl, nach Themen, zu denen die Kunden sich mehr Beratung wünschen, und nach der wahrgenommenen Veränderung der eigenen Online-Sichtbarkeit im Vergleich zum Vorjahr.

Die Auswertung dauert etwa zwei Stunden. Ergebnis ist eine HTML-Seite mit dem Titel „Kundenmonitor [Jahr], Webagentur Südbaden“, die die wichtigsten fünf Zahlen als Fließtext enthält, ergänzt um eine einfache Balkengrafik und eine Methodikbeschreibung mit Stichprobe und Erhebungszeitraum. Die Seite trägt ein schema.org/Dataset-Markup mit datePublished und creator.

Was danach passiert: Branchenblogs greifen einzelne Zahlen auf und verlinken auf die Seite. Damit steigt die Wahrscheinlichkeit, dass KI-Systeme sie bei Fragen zu Agenturauswahlkriterien heranziehen, erheblich. Eine Quelle, die mehrfach aufgegriffen wurde, hat ein stärkeres Signal als eine, die nur auf der eigenen Website existiert. Das GEO-Paper bezeichnet diesen Effekt als Verbreitung: Je mehr seriöse Seiten eine Zahl aufgreifen, desto stabiler steht sie in KI-Antworten.

Der Aufwand für das Erste-Jahr-Setup liegt bei etwa einem halben Tag. Ab dem zweiten Jahr vergleicht die Seite automatisch mit dem Vorjahr, was die Zitierbarkeit weiter erhöht, weil Veränderungen über die Zeit für Redaktionen und KI-Systeme gleichermaßen interessant sind.

Die häufigsten Fehler beim Veröffentlichen eigener Daten

Die meisten Fehler betreffen nicht die Daten selbst, sondern ihre Zugänglichkeit und ihren Kontext.

Daten verstecken. Viele Unternehmen erheben interessante interne Erkenntnisse, geben sie aber nur hinter einem Formular oder im passwortgeschützten Mitgliederbereich preis. Was nicht offen im Web zugänglich ist, kann nicht indexiert und damit auch nicht zitiert werden. Eine Zusammenfassung der Kernzahlen gehört auf eine öffentliche Seite, auch wenn der vollständige Report zusätzlich als Lead-Magnet hinter einem Formular liegt.

Methodik weglassen. Ein Bericht ohne Angaben zu Stichprobe, Zeitraum und Rekrutierungsweg ist für ernsthafte Weiterverwendung ungeeignet. KI-Systeme gewichten Quellen nach Verlässlichkeit, und eine Zahl ohne Methodik hat keine überprüfbare Herkunft.

Falsches Format wählen. Ein PDF ohne HTML-Entsprechung ist schwerer crawlbar als eine strukturierte Webseite. Wer eine Studie nur als PDF anbietet, verschenkt einen erheblichen Teil der möglichen Sichtbarkeit. Das PDF kann ergänzend angeboten werden, darf aber nie das einzige Format sein.

Daten nicht aktualisieren. Daten, die erkennbar veraltet sind, werden mit wachsendem zeitlichen Abstand seltener herangezogen. Ein Bericht, der jährlich erscheint, hat einen strukturellen Vorteil gegenüber einer Studie, die einmal veröffentlicht und nie erneuert wurde.

Zuverlässig gefunden werden Ihre Daten nur dann, wenn die technische Basis stimmt: sauberes HTML, strukturiertes Markup und eine schnell ladende Seite. Unsere Leistungsseite zu Websites und Onlineshops zeigt, wie sich technische Grundlagen und inhaltliche Strategie für den Mittelstand verbinden lassen.

Sofort-Checkliste: Eigene Daten zitierfähig machen

Haben Ihre Daten eine klare Herkunftsangabe (Firmenname, Jahr)?
Sind Stichprobengröße, Erhebungszeitraum und Zielgruppe im Text genannt?
Stehen die wichtigsten Zahlen als Fließtext, nicht nur als Grafik?
Ist die Seite ohne Anmeldung oder Formular offen zugänglich?
Nutzen Sie HTML statt nur PDF?
Haben Grafiken einen Alternativtext mit den wichtigsten Zahlen?
Ist ein schema.org/Dataset-Markup mit name, description und datePublished gesetzt?
Planen Sie eine jährliche Aktualisierung, um eine Zeitreihe aufzubauen?

Das Wichtigste zum Mitnehmen

Eigene Daten mit Methodikangabe gehören zu den stärksten Zitat-Signalen für KI-Systeme, weil sie einen Ankerpunkt mit Herkunft liefern.
Nicht die Stichprobengröße entscheidet, sondern die Transparenz: Wer, wann, wie befragt, dokumentiert und öffentlich zugänglich.
Daten müssen als HTML erscheinen, nicht nur als PDF oder Grafik, sonst sind sie für KI faktisch unsichtbar.
Schema.org/Dataset mit den Feldern name, description und datePublished signalisiert maschinellen Systemen, dass strukturierte Primärdaten vorliegen.

Häufige Fragen

Warum werden eigene Daten häufiger von KI zitiert als gute Ratgebertexte?

KI-Systeme suchen Ankerpunkte: konkrete Zahlen, eine dokumentierte Methodik und eine belegbare Herkunft. Ein Ratgebertext ohne Zahlenbasis bietet keinen Ankerpunkt. Eine eigene Befragung mit Methodikangabe bietet alle drei Elemente auf einmal. Das GEO-Paper (Aggarwal et al., KDD 2024) belegt, dass Statistics Addition und Quellenbelege zu den wirksamsten Einzelhebeln für Sichtbarkeit in KI-Antworten gehören.

Wie groß muss eine Umfrage sein, damit KI-Systeme sie als Quelle aufnehmen?

Einen definierten Schwellenwert gibt es nicht. Wichtiger als die Stichprobengröße ist die methodische Transparenz: Eine Befragung mit 150 klar beschriebenen Teilnehmern aus einer engen Zielgruppe ist belastbarer als eine vage Analyse mit 1.000 Antworten ohne Methodik. Entscheidend ist, dass Erhebungszeitraum, Zielgruppe und Rekrutierungsweg im Text stehen.

Helfen PDFs oder HTML-Seiten mehr für die Sichtbarkeit in KI-Systemen?

HTML-Seiten haben einen strukturellen Vorteil. Sie lassen sich leichter crawlen, erlauben strukturiertes Markup und werden von Retrieval-Systemen besser erfasst. Ein PDF kann ergänzend angeboten werden, darf aber nie das einzige Format sein. Daten, die nur als PDF vorliegen, werden von KI-Systemen kaum oder gar nicht aufgegriffen.

Was bringt schema.org/Dataset konkret?

Das Markup macht Datenpublikationen für Googles Dataset Search auffindbar und signalisiert maschinellen Verarbeitungssystemen, dass strukturierte Primärdaten vorliegen. Pflichtfelder bei Google sind name und description. Zusätzlich empfohlen sind creator, datePublished und temporalCoverage. Das Markup verstärkt die Wirkung guter Inhalte, ersetzt aber nicht die inhaltliche Qualität.

Muss ich Rohdaten veröffentlichen, oder reicht eine Zusammenfassung?

In den meisten Fällen reicht eine gut aufbereitete Zusammenfassung mit klar dokumentierter Methodik. Rohdaten erhöhen die Glaubwürdigkeit und erleichtern anderen Medien die Weiterverwendung, was die Zitierwahrscheinlichkeit steigert. Pflicht sind sie nicht. Wer Rohdaten nicht veröffentlichen kann (Datenschutz, Geschäftsgeheimnisse), hält zumindest die aggregierten Ergebnisse offen zugänglich.

Wie oft sollte ich Daten aktualisieren, damit sie relevant bleiben?

Ein Jahresrhythmus ist für die meisten Branchen sinnvoll. Daten, die älter als zwei bis drei Jahre sind, werden von KI-Systemen tendenziell seltener herangezogen, weil Aktualität als Qualitätssignal wirkt. Wer eine Befragung einmal etabliert hat, baut mit jeder neuen Ausgabe eine Zeitreihe auf, die mit der Zeit eigenständig wertvoller wird.

Quellen und weiterführende Informationen: Aggarwal et al., GEO: Generative Engine Optimization, ACM KDD 2024 (arxiv.org), schema.org/Dataset, Google: Dataset structured data (developers.google.com), Mittelstand-Digital Zentrum Berlin: Umfrage-Tools. Stand: Juni 2026.

Eigene Daten und Studien: Warum KI-Systeme sie besonders gern zitieren