Die Wissenschaft hinter synthetischen Daten

Synthetische Befragte sind nicht mehr Spekulation, sondern Standard. Peer-Review-Studien in Political Analysis, dem Journal of Marketing, Psychology & Marketing sowie Replikationen von EY, Harvard, MIT Sloan und Qualtrics zeigen, dass kalibrierte synthetische Daten heute die traditionelle rein menschliche Forschung erreichen — und in manchen Fällen übertreffen.

95%

Korrelation der EY-Markenumfragen-Replikation

90%

der menschlichen Test-Retest-Reliabilität (arXiv 2025)

77%

der von Menschen erkannten Themen wiedergewonnen (Journal of Marketing 2025)

DAS WICHTIGSTE ERGEBNIS

EY replizierte seine CEO-Markenumfrage mit 1.000 synthetischen Personas

95%

Korrelation mit der Originalumfrage

In einem Doppelblindtest führte das Beratungsunternehmen EY seine jährliche Global Brand Survey—gerichtet an CEOs von US-Unternehmen mit über 1 Mrd. $ Umsatz—zweimal durch: einmal über klassische Befragung, einmal über 1.000 von Aaru erstellte synthetische Personas.

Die synthetische Umfrage zeigte eine 95%-Korrelation mit der echten. EY rekonstruierte zudem den jährlichen Global Wealth Research Report an einem einzigen Tag mit einer medianen Korrelation von über 90% zur ursprünglichen sechsmonatigen Studie.

— Toni Clayton-Hine, EY CMO. Berichtet in Solomon Partners (Sept. 2025).

Fallstudie lesen →

PEER-REVIEW-FORSCHUNG

Die wissenschaftliche Grundlage für synthetische Befragte

Vier grundlegende Studien aus führenden Fachzeitschriften belegen, dass kalibrierte synthetische Daten menschliche Umfrageantworten mit wissenschaftlicher Strenge reproduzieren.

Journal of Marketing

Arora, Chakraborty & Nishimura · 2025 · Vol. 89(2)

KI–Mensch-Hybride in der Marketingforschung

Die KI–Mensch-Hybride erzeugt informationsreiche, kohärente Daten, die rein menschliche Daten an Tiefe und Erkenntnisgewinn übertreffen, und erreicht menschliches Niveau bei der Themengenerierung. Die LLM-Hybride identifizierte 77 % der von menschlichen Analysten erkannten Themen.

DOI: 10.1177/00222429241276529 →

arXiv

Maier et al. · Oktober 2025 · arXiv:2510.08338

LLMs reproduzieren Kaufabsichten über semantische Ähnlichkeit

Getestet an 9.300 menschlichen Antworten aus 57 Körperpflege-Umfragen erreichte die Semantic Similarity Rating-Methode 90 % der menschlichen Test-Retest-Reliabilität. Die Verteilungsähnlichkeit zu echten Daten lag über 0,85 (Kolmogorov–Smirnov).

Auf arXiv lesen →

Political Analysis

Argyle et al. · 2023 · Cambridge University Press

Out of One, Many: Sprachmodelle zur Simulation menschlicher Stichproben

Die wegweisende „Silicon-Samples“-Studie. Mit soziodemografischen Profilen konditioniertes GPT-3 emuliert akkurat die Antwortverteilungen über menschliche Untergruppen hinweg und reproduzierte echte Umfrageergebnisse über vielfältige Bevölkerungsgruppen.

DOI: 10.1017/pan.2023.2 →

Psychology & Marketing

Sarstedt, Adler, Rau & Schmitt · 2024 · Vol. 41(6)

Silicon Samples mit LLMs in der Konsumenten- und Marketingforschung

Etabliert formale akademische Leitlinien für Silicon-Sampling. Schlussfolgerung: synthetische Stichproben sind besonders vielversprechend in den vorgelagerten Phasen der Forschung — qualitative Vortests, Pilotstudien und Hypothesengenerierung.

DOI: 10.1002/mar.21982 →

UNABHÄNGIGE BRANCHEN-REPLIKATION

Replikationen durch Branchenführer

Qualtrics × Greenbook

0.07 SD

Cohen's-D-Abweichung zwischen kalibrierten synthetischen Befragten und echten Menschen über 11 identische Umfragefragen. Die Erkenntnis: Kalibrierung schließt die Lücke. McLean (Feb. 2026) Replikation von Paxton & Yang.

Replikationsstudie lesen →

PyMC Labs

90%

Übereinstimmung mit menschlichen Umfragedaten und 85 % Verteilungsähnlichkeit in Konzept- und Preisstudien mit sorgfältig kalibrierten synthetischen Konsumenten.

Analyse lesen →

Dollar Shave Club & Gabb

~10×

Schnellere Forschungszyklen. Dollar Shave Club: monatelange Studien in Wochen. Gabb: Wochenarbeit in Stunden, mit Rangfolge-Übereinstimmung zwischen synthetischen und menschlichen Befragten.

Fallstudien lesen →

BERICHTERSTATTUNG IN FÜHRENDEN MEDIEN

Wo die Diskussion stattfindet

Harvard Business Review

„LLMs, sorgfältig eingesetzt, können als synthetische Fokusgruppen fungieren — und liefern realistische, präzise Präferenzen in einem Bruchteil der Zeit und Kosten.“

Brand, Israeli & Ngwe · Juli 2025

MIT Sloan Management Review

„LLM-generierte synthetische Befragte — digitale Zwillinge — ermöglichen schnelles Konzepttesten und KI-moderierte Interviews für qualitative Forschung im großen Maßstab.“

2025

Nature

„Synthetische Daten könnten besser sein als echte Daten.“

2023

Marketing Week

„Synthetische Daten sind so gut wie echte — als Nächstes kommt synthetische Strategie.“

Mark Ritson

Die Wissenschaft in Aktion erleben

Personas erstellen, eine Umfrage oder ein Interview durchführen und sehen, was synthetische Befragte enthüllen — in Minuten.

Kostenlos starten Preise ansehen