AI Citation Behavior Report
Analyse der Auswahlkriterien und Quellenattribution in generativen KI-Systemen bei informationsorientierten Anfragen.
Methodische Transparenz
Dieser Report dokumentiert beobachtetes Zitierverhalten von ChatGPT, Perplexity und Google SGE über 60 Tage (November 2024 - Januar 2025). Grundlage sind 500 strukturierte Testanfragen. Einschränkung: Keine Einsicht in Algorithmen, Beobachtungen zeigen Korrelationen ohne kausale Bestätigung.
Zielsetzung
Generative KI-Systeme beantworten Anfragen nicht durch Link-Listen, sondern durch synthetisierte Antworten mit Quellenangaben. Welche Quellen ausgewählt werden, folgt nicht zwingend klassischen Ranking-Kriterien wie PageRank oder Domain Authority. Dieser Report untersucht, welche Eigenschaften von Webinhalten die Wahrscheinlichkeit erhöhen, als Quelle referenziert zu werden.
Kernfrage: Welche strukturellen, inhaltlichen und technischen Faktoren korrelieren mit Zitierungen in generativen Antworten?
Testaufbau
Anfragen-Typologie
500 Testanfragen, kategorisiert nach Informationsbedarf:
- Definitionen (35%): "Was ist X?", "Wie funktioniert Y?"
- Vergleiche (25%): "X vs Y", "Unterschied zwischen A und B"
- Handlungsanleitungen (20%): "Wie mache ich X?", "Best Practices für Y"
- Einordnungen (15%): "Warum ist X wichtig?", "Wann sollte ich Y?"
- Kontextfragen (5%): "Was bedeutet X für Y?", "X im Kontext von Z"
Getestete Systeme
- 1.ChatGPT (GPT-4): Web-Browsing aktiviert, Standardkonfiguration
- 2.Perplexity AI: Standard-Modus (nicht Pro), keine Filterung
- 3.Google SGE: Verfügbar in US-Region, experimentelles Feature
Erfasste Variablen
Für jede Quelle, die in einer Antwort zitiert wurde, wurden folgende Eigenschaften dokumentiert:
- - Domain Authority (nach Moz/Ahrefs)
- - Klassisches Google-Ranking für dieselbe Anfrage
- - Vorhandensein von Schema.org Markup (binär + Typ)
- - Content-Struktur (H-Tags, Listen, Definitionen)
- - Textlänge und Lesbarkeitsscore (Flesch Reading Ease)
- - Autorensignale (Byline, About-Seite, Credentials)
- - Aktualität des Inhalts (Publikationsdatum)
- - Interne Verlinkungsdichte (Links pro 1000 Wörter)
Zentrale Beobachtungen
1. Quellen-Diversität variiert stark zwischen Systemen
Perplexity: Zitiert durchschnittlich 4-6 Quellen pro Antwort, hohe Diversität, bevorzugt spezialisierte Fachquellen auch mit niedrigerer DA.
ChatGPT: Zitiert 1-3 Quellen, bevorzugt etablierte Domains (Wikipedia, offizielle Dokumentationen, bekannte Publisher). Konservatives Zitierverhalten.
Google SGE: Zitiert 2-4 Quellen, starke Überlappung mit klassischen Top-3-Rankings. Bevorzugt Quellen aus eigenem Index mit hoher E-A-T-Bewertung.
2. Strukturierte Definitionen werden überproportional häufig zitiert
Seiten, die eine Frage direkt und strukturiert beantworten (z.B. "X ist Y" am Anfang), wurden in 71% der Fälle zitiert, wenn sie in den Top 20 der klassischen Suche ranken.
Interpretation: LLMs bevorzugen Inhalte, die präzise extrahierbare Informationen bieten. Lange Einleitungen oder implizite Erklärungen reduzieren Zitierfähigkeit.
3. Domain Authority ist relevant, aber nicht dominant
Domains mit DA 50+ wurden in 48% der Fälle zitiert. Domains mit DA 20-35 in 19% der Fälle. Jedoch: 23% aller Zitierungen gingen an Domains mit DA unter 40.
Schlussfolgerung: Etablierte Autorität erhöht Wahrscheinlichkeit, aber strukturelle Qualität kann niedrigere DA teilweise kompensieren. Spezialisierte Nischenquellen haben Chance auf Zitierung, wenn Inhalt präzise ist.
4. Aktualität ist bei zeitkritischen Themen entscheidend
Bei Themen mit hoher Aktualitätsrelevanz (z.B. "Trends 2025", "Neue Funktionen X") wurden Inhalte mit Publikationsdatum innerhalb der letzten 6 Monate zu 82% häufiger zitiert als ältere Inhalte, selbst wenn letztere höhere DA hatten.
Bei zeitlosen Themen (z.B. "Grundlagen SEO", "Was ist Marketing?") war Aktualität kein signifikanter Faktor. Hier dominierten Autorität und strukturelle Klarheit.
5. Schema.org Markup korreliert mit höherer Zitierrate
Seiten mit korrekt implementiertem Article, HowTo oder FAQPage Schema wurden in 58% der Fälle zitiert. Seiten ohne strukturierte Daten nur in 27% der Fälle.
Besonders effektiv: FAQPage-Schema bei "Was ist X?"-Anfragen, HowTo-Schema bei Anleitungen, Organization-Schema bei Entitätsfragen.
6. Autorensignale verstärken Vertrauen, aber nicht bei allen Systemen gleich
Google SGE: Starke Präferenz für Inhalte mit klarer Autorenattribution, E-A-T-Signalen, About-Seiten. Effekt besonders stark bei YMYL-Themen (Health, Finance).
Perplexity: Autorensignale weniger gewichtet, Fokus auf inhaltliche Präzision.
ChatGPT: Bevorzugt bekannte Publisher und offizielle Quellen, Autorensignale auf unbekannten Domains haben geringen Einfluss.
7. Inhaltsformat beeinflusst Zitierung
Überproportional häufig zitiert wurden:
- - Glossare und Definitions-Seiten (84% Zitierrate bei Vorhandensein)
- - Strukturierte Listen (68%)
- - FAQ-Seiten (62%)
- - Vergleichstabellen (59%)
- - How-To-Guides mit Schritt-für-Schritt-Struktur (55%)
Selten zitiert: Opinion Pieces (12%), narrative Blogposts ohne klare Struktur (18%), Listicles ohne Substanz (8%).
Implikationen für Content-Strategien
Content muss für Extraktion optimiert werden
Traditionelles SEO-Copywriting (Keywords, Lesbarkeit, Engagement) reicht nicht. Inhalte müssen so strukturiert sein, dass zentrale Aussagen ohne Kontext extrahierbar sind. Empfehlung: Jeder Absatz sollte eine in sich geschlossene Information enthalten.
Strukturierte Formate gewinnen an Bedeutung
Glossare, FAQs, Vergleiche und How-To-Guides werden überproportional zitiert. Content-Teams sollten diese Formate gezielt entwickeln, auch wenn sie nicht primär für menschliche Leser optimiert sind.
Technische Implementierung ist Pflicht
Schema.org Markup ist kein Nice-to-have mehr, sondern kritischer Faktor für GEO-Sichtbarkeit. Websites ohne strukturierte Daten haben signifikante Nachteile.
Spezialisierung kann Domain Authority kompensieren
Nischenquellen mit hoher thematischer Tiefe haben Chancen auf Zitierung, auch ohne etablierte DA. Fokus auf spezialisierte, präzise Inhalte kann effektiver sein als breite Content-Strategie mit geringer Tiefe.
Empfehlungen für unterschiedliche Inhaltstypen
Für Definitions-Content
- - Definition in ersten 50 Wörtern platzieren
- - "X ist Y"-Format verwenden
- - Synonyme und alternative Begriffe explizit nennen
- - FAQPage-Schema implementieren
Für How-To-Content
- - Schritt-für-Schritt-Struktur mit nummerierten Listen
- - Jeder Schritt als eigenständiger, verständlicher Block
- - HowTo-Schema mit vollständigen Schritt-Beschreibungen
- - Voraussetzungen und Kontext am Anfang explizit machen
Für Vergleichs-Content
- - Klare Kriterien definieren und tabellarisch darstellen
- - Fazit am Anfang und Ende platzieren
- - Neutrale, faktenbasierte Formulierung
- - ComparisonTable-Schema oder strukturierte Listen verwenden
Für Thought Leadership
- - Zentrale These klar formulieren und mehrfach wiederholen
- - Daten und Studien mit Quellenangaben belegen
- - Autorensignale konsequent setzen (Byline, Credentials, About-Page)
- - Article-Schema mit Author und Publisher verwenden
Limitationen
Systemänderungen: GEO-Systeme entwickeln sich kontinuierlich. Beobachtungen aus Q1 2025 sind möglicherweise in 6 Monaten überholt.
Stichproben-Bias: 500 Anfragen decken nicht alle Themenbereiche ab. YMYL-Themen, lokale Anfragen und transaktionale Queries wurden unterrepräsentiert.
Keine A/B-Tests: Korrelationen wurden beobachtet, aber nicht durch kontrollierte Experimente bestätigt. Kausale Zusammenhänge sind Hypothesen.
Sprachliche Eingrenzung: Analyse fokussiert auf englischsprachige Anfragen und Quellen. Verhalten bei anderen Sprachen kann abweichen.
Verwendung und Zitation
Dieser Report ist frei verwendbar für nicht-kommerzielle Zwecke. Zitation:
nestec (2025). AI Citation Behavior Report: Auswahlkriterien und Quellenattribution in generativen KI-Systemen. Verfügbar unter: [URL]
