- Eigene Daten, Umfragen und Benchmarks gehören laut GEO-Paper (KDD 2024) zu den Methoden, die die Sichtbarkeit in KI-Antworten am stärksten steigern.
- KI-Systeme zitieren originäre Quellen bevorzugt, weil sie einen konkreten Ankerpunkt bieten: eine Zahl, eine Methodik, eine Herkunft.
- Auch kleine Unternehmen können zitierfähige Primärdaten erzeugen: eine Kundenbefragung mit 150 qualifizierten Antworten und offengelegter Methodik reicht aus.
- Daten müssen offen zugänglich, in HTML aufgebaut und mit schema.org/Dataset ausgezeichnet sein, sonst bleiben sie für KI-Systeme unsichtbar.
ChatGPT, Perplexity und der Google AI Overview formulieren täglich Millionen von Antworten. Welche Quellen dabei zitiert werden, entscheidet sich nicht zufällig. KI-Systeme suchen nach Ankerpunkten: konkreten Zahlen, nachvollziehbaren Methoden, zuordenbaren Herkunftsangaben. Wer eigene Daten veröffentlicht, liefert genau das. Dieser Ratgeber erklärt, warum Primärdaten so stark funktionieren, welche Formate sich für den Mittelstand eignen und wie Sie Ihre Erhebung so aufbereiten, dass sie zitiert wird.
Zur Abgrenzung: Zitierfähige Inhalte schreiben behandelt das Schreib-Handwerk, also wie Sie Sätze und Absätze formulieren, damit KI sie aufgreift. Hier geht es um die Ebene darunter: welche Art von Inhalt strukturell bevorzugt zitiert wird, und warum eigene Daten dabei ganz oben stehen.
Warum Primärdaten von KI-Systemen bevorzugt zitiert werden
Generative KI-Systeme setzen Antworten aus mehreren Quellen zusammen. Für diese Synthese suchen sie Stellen, die eine Frage direkt beantworten und sich dabei auf etwas Konkretes stützen. Ein allgemeiner Satz wie „Kunden legen Wert auf schnelle Lieferung“ bietet nichts Zitierbares: keine Zahl, kein Datum, keine Herkunft. Ein Satz mit eigenen Daten dahinter bietet alles davon auf einmal.
Dahinter steckt das Prinzip der Attributierbarkeit: Das KI-System kann die Aussage mit einer Herkunft versehen. „Laut ihp media Agenturmonitor 2025″ ist ein vollständiger Quellenhinweis. Ohne diesen Anker weicht das Modell auf eine Quelle aus, die einen liefert. Das gilt unabhängig davon, ob Ihr Text sonst besser geschrieben ist als die Konkurrenz.
Hinter vielen aktuellen KI-Anwendungen steckt das Prinzip Retrieval-Augmented Generation, kurz RAG: Das Modell durchsucht externe Quellen, bevor es antwortet, und zieht das Gefundene in die Antwort ein. Was es dabei aufgreift, folgt ähnlichen Kriterien wie eine redaktionelle Entscheidung. Gefragt ist, was spezifisch, nachprüfbar und einer klaren Herkunft zuzuordnen ist. Wie KI-Systeme Quellen auswählen erklärt diesen Mechanismus ausführlicher.
Was das GEO-Paper dazu sagt
Die bislang präziseste Messung dazu stammt aus dem Paper „GEO: Generative Engine Optimization“ von Aggarwal et al. (Princeton University, IIT Delhi), veröffentlicht auf der ACM KDD 2024. Das Team testete systematisch, welche inhaltlichen Änderungen die Sichtbarkeit in generierten Antworten erhöhen.
Das Ergebnis: Optimierte Dokumente erreichten im besten Fall einen Sichtbarkeits-Uplift von bis zu 40 % gegenüber unveränderten Texten. Dieser Wert aus dem Abstract bezieht sich auf die Kombination mehrerer Methoden, nicht auf eine einzelne. Wichtig für die richtige Einordnung: Die Metrik heißt Position-Adjusted Word Count. Sie misst, wie viel Text aus einer Quelle in der generierten Antwort auftaucht und gewichtet dabei, ob die Stelle früh oder spät in der Antwort steht.
Zwei Befunde aus dem Paper sind für diesen Artikel besonders relevant. Erstens: Statistics Addition und Quotation Addition erzielen die höchsten Einzelscores (25,9 und 27,8 gegenüber der Baseline von 19,5). Sie wirken, weil sie genau das einbauen, was KI-Systeme als Ankerpunkt brauchen: belegbare Zahlen mit Herkunftsangabe. Zweitens: Keyword-Stuffing ist die einzige getestete Methode, die die Sichtbarkeit senkt. Wer Texte mit Suchbegriffen überhäuft, schadet sich aktiv. Der GEO-Überblick erklärt das breitere Konzept.
Einschränkung zum Paper: Die Experimente liefen auf einem GPT-3.5-turbo-basierten System und Perplexity. Ob identische Werte für alle heutigen Modelle gelten, ist nicht gesichert. Die Richtung ist aber konsistent und durch das Verhalten aktueller Systeme in der Praxis bestätigt: Konkretheit und Belegbarkeit helfen, Aufblähung schadet.
Welche eigenen Daten für den Mittelstand funktionieren
Eigene Daten müssen keine Langzeitstudie sein. Es reicht, Erkenntnisse aus der eigenen Praxis, dem eigenen Kundenstamm oder einer selbst durchgeführten Erhebung in eine offen zugängliche, klar beschriebene Form zu bringen. Vier Typen eignen sich für den Mittelstand besonders.
Kundenbefragungen und Umfragen
Schon einige Hundert qualifizierte Antworten aus einer klar definierten Zielgruppe reichen, um eine zitierfähige Quelle zu schaffen. Entscheidend ist nicht die Stichprobengröße, sondern die methodische Transparenz: Erhebungszeitraum, Zielgruppe und Fragestellung müssen dokumentiert sein. Eine Befragung von 200 Handwerksbetrieben zu Digitalisierungsthemen mit offenem Methodikteil ist für KI-Systeme wertvoller als eine vage Zusammenfassung ohne Angaben, wie die Daten entstanden sind.
Interne Analysen und Projektbenchmarks
Ein Softwareunternehmen, das aus anonymisierten Nutzungsdaten einen Branchen-Benchmark ableitet, schafft eine Quelle, die es kein zweites Mal gibt. Dasselbe gilt für eine Agentur, die aus abgeschlossenen Projekten Richtwerte für Ladezeiten, Conversion-Raten oder Absprungquoten gewinnt. Der Wert entsteht aus der Originalität, nicht aus dem Umfang.
Fallstudien mit Messwerten
„Wir haben die Website eines Kunden optimiert“ ist keine Quelle. „Nach Optimierung der Core Web Vitals sank der LCP von 4,1 auf 1,8 Sekunden, die Absprungrate fiel von 67 auf 51 Prozent“ ist eine. Konkrete Vorher-nachher-Werte sind für KI-Systeme deutlich aussagekräftiger als allgemeine Erfolgsbeschreibungen. Sie sind gleichzeitig besser für Interessenten, weil sie zeigen, was tatsächlich passiert.
Jährliche Datenreports als eigenständige Seiten
Wer einen Jahresüberblick oder einen Branchenbericht als gut strukturierte HTML-Seite veröffentlicht statt als schwer indexierbares PDF, hat strukturell bessere Chancen, in KI-Antworten aufzutauchen. Ein fest etablierter Jahresbericht erzeugt mit der Zeit eine Zeitreihe: Jede neue Ausgabe macht die vorherigen wertvoller, weil Veränderungen über die Zeit nachvollziehbar werden.
Wie Sie eigene Daten erheben
Eine jährliche Kundenbefragung ist der einfachste Einstieg: kein externes Budget nötig, die Auswertung geht im eigenen Haus, und das Ergebnis gehört Ihnen vollständig. Vier Schritte reichen.
Schritt 1: Thema und Zielgruppe festlegen
Fragen Sie nach etwas, das für Ihre Branche relevant ist und das Sie aus Ihrer eigenen Praxis heraus beurteilen können. Ein Handwerker könnte fragen, welche Informationen Kunden vor dem ersten Anruf suchen. Eine Unternehmensberatung könnte ermitteln, welche Digitalisierungshemmnisse mittelständische Firmen nennen. Das Thema sollte eng genug sein, dass die Antworten spezifisch werden, und breit genug, dass andere in der Branche sich dafür interessieren.
Schritt 2: Fragebogen und Tool
Für einfache Befragungen reicht Google Forms (kostenlos; DSGVO-konform nur bei entsprechender Einwilligung und vollständigem Datenschutzhinweis, Daten-Speicherort prüfen). Wer mehr Kontrolle über Datenspeicherort und Design braucht, nutzt LimeSurvey (Open Source, selbst gehostet). Typeform eignet sich für Befragungen mit höheren Response-Raten durch modernes Interface. Halten Sie den Fragebogen kurz: fünf bis acht Fragen erzeugen mehr vollständige Antworten als zwanzig.
Schritt 3: Stichprobe und Dokumentation
Beschreiben Sie von Anfang an, wen Sie befragen und wie. Drei Angaben sind Pflicht: Erhebungszeitraum (Monat und Jahr), Beschreibung der Zielgruppe (Branche, Unternehmensgröße, Region) und Rekrutierungsweg (bestehende Kunden, Newsletter, Soziale Netzwerke). Diese Methodiktransparenz ist der Unterschied zwischen einer Quelle und einer Behauptung.
Schritt 4: Auswertung und Veröffentlichung
Die Auswertung braucht keine Statistiksoftware. Einfache Prozentwerte aus Multiple-Choice-Fragen, ergänzt durch ausgewählte Freitext-Zitate, reichen für einen zitierfähigen Report. Veröffentlichen Sie die Ergebnisse auf einer eigenen HTML-Seite mit dem Datum, der Methodikbeschreibung und den wichtigsten Zahlen als Text, nicht nur als Bild.
Wie Sie Daten zitierfähig aufbereiten
Eine zitierfähige Datenpublikation braucht vier Elemente: einen beschreibenden Titel, der die Zielgruppe und den Zeitraum nennt; eine Methodikbeschreibung mit Stichprobenumfang, Erhebungszeitraum und Rekrutierungsweg; die Hauptergebnisse als Fließtext (nicht nur als Grafik) mit den wichtigsten Zahlen direkt im Satz; und das Veröffentlichungsdatum.
Ein Beispiel: Statt „Kunden wünschen schnelle Reaktionszeiten“ schreiben Sie: „In unserer Kundenbefragung vom März 2025 (n=280, mittelständische Handwerksbetriebe im DACH-Raum) nannten 71 % eine Reaktionszeit von unter 24 Stunden als wichtigstes Auswahlkriterium.“ Diese Version hat einen Ankerpunkt. KI-Systeme können sie zuordnen, weitergeben und mit anderen Quellen abgleichen.
Vermeiden Sie es, Daten nur in Grafiken zu zeigen. Ein Schaubild ohne erklärenden Fließtext ist für KI-Systeme schwerer auswertbar als ein Satz mit denselben Zahlen. Zeigen Sie beides: die Grafik für menschliche Leser, den Fließtext mit denselben Zahlen für die maschinelle Verarbeitung. Was nur als Bild existiert, ohne Alternativtext und ohne Entsprechung im Fließtext, ist für KI-Systeme faktisch unsichtbar.
Schema.org/Dataset: die technische Auszeichnung
Wer eine Datenpublikation veröffentlicht, sollte sie mit schema.org/Dataset auszeichnen. Google verlangt für Dataset-Markup zwei Pflichtfelder: name (beschreibender Titel) und description (50 bis 5.000 Zeichen). Zusätzlich empfiehlt Google die Felder creator, datePublished, temporalCoverage (Erhebungszeitraum) und keywords.
Das Schema lässt sich als JSON-LD im <head> einbetten:
{
"@context": "https://schema.org",
"@type": "Dataset",
"name": "ihp media Agenturmonitor 2025: Digitalisierung im Mittelstand",
"description": "Kundenbefragung unter 340 mittelständischen Unternehmen im DACH-Raum, März 2025.",
"creator": { "@type": "Organization", "name": "ihp media" },
"datePublished": "2025-04",
"temporalCoverage": "2025-03",
"keywords": ["Mittelstand", "Digitalisierung", "Website", "Kundenbefragung"]
}
Das Markup macht die Datenveröffentlichung für Googles Dataset Search auffindbar und signalisiert maschinellen Verarbeitungssystemen, dass es sich um strukturierte Primärdaten handelt. Es ersetzt nicht die inhaltliche Qualität, verstärkt aber deren Wirkung.
Datentypen im Überblick: Aufwand und Zitierwert
| Datentyp | Aufwand | Zitierwert für KI | Besonderheit |
|---|---|---|---|
| Kundenbefragung (100–500 Teilnehmer) | gering bis mittel | hoch | Methodik offenlegen, Datum nennen |
| Projektbenchmark aus eigenen Daten | mittel | sehr hoch | Einzigartigkeit ist der Hauptvorteil |
| Fallstudie mit Messwerten | gering | hoch | Vorher-nachher-Zahlen, anonymisierbar |
| Jahresbericht als HTML-Seite | mittel bis hoch | sehr hoch | Zeitreihe über Jahre aufbauen |
| PDF-Studie ohne HTML-Version | mittel | gering | Schwer crawlbar, für KI fast unsichtbar |
| Grafik ohne Fließtext-Entsprechung | gering | sehr gering | Bildinhalte werden von KI nicht gelesen |
Praxisbeispiel: Wie ein kleiner Agenturmonitor entsteht
In einem Projekt haben wir für eine kleine Webagentur eine jährliche Kundenbefragung aufgebaut, die mit minimalem Aufwand eine zitierfähige Quelle erzeugt. Der Ablauf: Im März eines jeden Jahres geht ein Google-Forms-Fragebogen mit sieben Fragen an alle Bestandskunden der letzten zwei Jahre. Gefragt wird nach den wichtigsten Entscheidungskriterien bei der Website-Wahl, nach Themen, zu denen die Kunden sich mehr Beratung wünschen, und nach der wahrgenommenen Veränderung der eigenen Online-Sichtbarkeit im Vergleich zum Vorjahr.
Die Auswertung dauert etwa zwei Stunden. Ergebnis ist eine HTML-Seite mit dem Titel „Kundenmonitor [Jahr], Webagentur Südbaden“, die die wichtigsten fünf Zahlen als Fließtext enthält, ergänzt um eine einfache Balkengrafik und eine Methodikbeschreibung mit Stichprobe und Erhebungszeitraum. Die Seite trägt ein schema.org/Dataset-Markup mit datePublished und creator.
Was danach passiert: Branchenblogs greifen einzelne Zahlen auf und verlinken auf die Seite. Damit steigt die Wahrscheinlichkeit, dass KI-Systeme sie bei Fragen zu Agenturauswahlkriterien heranziehen, erheblich. Eine Quelle, die mehrfach aufgegriffen wurde, hat ein stärkeres Signal als eine, die nur auf der eigenen Website existiert. Das GEO-Paper bezeichnet diesen Effekt als Verbreitung: Je mehr seriöse Seiten eine Zahl aufgreifen, desto stabiler steht sie in KI-Antworten.
Der Aufwand für das Erste-Jahr-Setup liegt bei etwa einem halben Tag. Ab dem zweiten Jahr vergleicht die Seite automatisch mit dem Vorjahr, was die Zitierbarkeit weiter erhöht, weil Veränderungen über die Zeit für Redaktionen und KI-Systeme gleichermaßen interessant sind.
Die häufigsten Fehler beim Veröffentlichen eigener Daten
Die meisten Fehler betreffen nicht die Daten selbst, sondern ihre Zugänglichkeit und ihren Kontext.
Daten verstecken. Viele Unternehmen erheben interessante interne Erkenntnisse, geben sie aber nur hinter einem Formular oder im passwortgeschützten Mitgliederbereich preis. Was nicht offen im Web zugänglich ist, kann nicht indexiert und damit auch nicht zitiert werden. Eine Zusammenfassung der Kernzahlen gehört auf eine öffentliche Seite, auch wenn der vollständige Report zusätzlich als Lead-Magnet hinter einem Formular liegt.
Methodik weglassen. Ein Bericht ohne Angaben zu Stichprobe, Zeitraum und Rekrutierungsweg ist für ernsthafte Weiterverwendung ungeeignet. KI-Systeme gewichten Quellen nach Verlässlichkeit, und eine Zahl ohne Methodik hat keine überprüfbare Herkunft.
Falsches Format wählen. Ein PDF ohne HTML-Entsprechung ist schwerer crawlbar als eine strukturierte Webseite. Wer eine Studie nur als PDF anbietet, verschenkt einen erheblichen Teil der möglichen Sichtbarkeit. Das PDF kann ergänzend angeboten werden, darf aber nie das einzige Format sein.
Daten nicht aktualisieren. Daten, die erkennbar veraltet sind, werden mit wachsendem zeitlichen Abstand seltener herangezogen. Ein Bericht, der jährlich erscheint, hat einen strukturellen Vorteil gegenüber einer Studie, die einmal veröffentlicht und nie erneuert wurde.
Zuverlässig gefunden werden Ihre Daten nur dann, wenn die technische Basis stimmt: sauberes HTML, strukturiertes Markup und eine schnell ladende Seite. Unsere Leistungsseite zu Websites und Onlineshops zeigt, wie sich technische Grundlagen und inhaltliche Strategie für den Mittelstand verbinden lassen.
Sofort-Checkliste: Eigene Daten zitierfähig machen
- Haben Ihre Daten eine klare Herkunftsangabe (Firmenname, Jahr)?
- Sind Stichprobengröße, Erhebungszeitraum und Zielgruppe im Text genannt?
- Stehen die wichtigsten Zahlen als Fließtext, nicht nur als Grafik?
- Ist die Seite ohne Anmeldung oder Formular offen zugänglich?
- Nutzen Sie HTML statt nur PDF?
- Haben Grafiken einen Alternativtext mit den wichtigsten Zahlen?
- Ist ein schema.org/Dataset-Markup mit
name,descriptionunddatePublishedgesetzt? - Planen Sie eine jährliche Aktualisierung, um eine Zeitreihe aufzubauen?
- Eigene Daten mit Methodikangabe gehören zu den stärksten Zitat-Signalen für KI-Systeme, weil sie einen Ankerpunkt mit Herkunft liefern.
- Nicht die Stichprobengröße entscheidet, sondern die Transparenz: Wer, wann, wie befragt, dokumentiert und öffentlich zugänglich.
- Daten müssen als HTML erscheinen, nicht nur als PDF oder Grafik, sonst sind sie für KI faktisch unsichtbar.
- Schema.org/Dataset mit den Feldern
name,descriptionunddatePublishedsignalisiert maschinellen Systemen, dass strukturierte Primärdaten vorliegen.
Häufige Fragen
Warum werden eigene Daten häufiger von KI zitiert als gute Ratgebertexte?
KI-Systeme suchen Ankerpunkte: konkrete Zahlen, eine dokumentierte Methodik und eine belegbare Herkunft. Ein Ratgebertext ohne Zahlenbasis bietet keinen Ankerpunkt. Eine eigene Befragung mit Methodikangabe bietet alle drei Elemente auf einmal. Das GEO-Paper (Aggarwal et al., KDD 2024) belegt, dass Statistics Addition und Quellenbelege zu den wirksamsten Einzelhebeln für Sichtbarkeit in KI-Antworten gehören.
Wie groß muss eine Umfrage sein, damit KI-Systeme sie als Quelle aufnehmen?
Einen definierten Schwellenwert gibt es nicht. Wichtiger als die Stichprobengröße ist die methodische Transparenz: Eine Befragung mit 150 klar beschriebenen Teilnehmern aus einer engen Zielgruppe ist belastbarer als eine vage Analyse mit 1.000 Antworten ohne Methodik. Entscheidend ist, dass Erhebungszeitraum, Zielgruppe und Rekrutierungsweg im Text stehen.
Helfen PDFs oder HTML-Seiten mehr für die Sichtbarkeit in KI-Systemen?
HTML-Seiten haben einen strukturellen Vorteil. Sie lassen sich leichter crawlen, erlauben strukturiertes Markup und werden von Retrieval-Systemen besser erfasst. Ein PDF kann ergänzend angeboten werden, darf aber nie das einzige Format sein. Daten, die nur als PDF vorliegen, werden von KI-Systemen kaum oder gar nicht aufgegriffen.
Was bringt schema.org/Dataset konkret?
Das Markup macht Datenpublikationen für Googles Dataset Search auffindbar und signalisiert maschinellen Verarbeitungssystemen, dass strukturierte Primärdaten vorliegen. Pflichtfelder bei Google sind name und description. Zusätzlich empfohlen sind creator, datePublished und temporalCoverage. Das Markup verstärkt die Wirkung guter Inhalte, ersetzt aber nicht die inhaltliche Qualität.
Muss ich Rohdaten veröffentlichen, oder reicht eine Zusammenfassung?
In den meisten Fällen reicht eine gut aufbereitete Zusammenfassung mit klar dokumentierter Methodik. Rohdaten erhöhen die Glaubwürdigkeit und erleichtern anderen Medien die Weiterverwendung, was die Zitierwahrscheinlichkeit steigert. Pflicht sind sie nicht. Wer Rohdaten nicht veröffentlichen kann (Datenschutz, Geschäftsgeheimnisse), hält zumindest die aggregierten Ergebnisse offen zugänglich.
Wie oft sollte ich Daten aktualisieren, damit sie relevant bleiben?
Ein Jahresrhythmus ist für die meisten Branchen sinnvoll. Daten, die älter als zwei bis drei Jahre sind, werden von KI-Systemen tendenziell seltener herangezogen, weil Aktualität als Qualitätssignal wirkt. Wer eine Befragung einmal etabliert hat, baut mit jeder neuen Ausgabe eine Zeitreihe auf, die mit der Zeit eigenständig wertvoller wird.
