La science derrière les données synthétiques

Les répondants synthétiques sont passés de la spéculation à la pratique standard. Des études évaluées par les pairs dans Political Analysis, le Journal of Marketing, Psychology & Marketing, et des réplications par EY, Harvard, MIT Sloan et Qualtrics montrent que les données synthétiques calibrées égalent désormais — et parfois dépassent — la recherche traditionnelle uniquement humaine.

95%
corrélation de la réplication d'enquête de marque EY
90%
de fiabilité test-retest humaine (arXiv 2025)
77%
de thèmes d'analystes humains retrouvés (Journal of Marketing 2025)
LE RÉSULTAT PHARE

EY a reproduit son enquête de marque PDG avec 1 000 personas synthétiques

95%
corrélation avec l'enquête originale

Dans un test en double aveugle, le cabinet de services professionnels EY a effectué son enquête annuelle Global Brand Survey — destinée aux PDG d'entreprises américaines de plus d'1 Md $ de chiffre d'affaires — deux fois : une fois en collecte traditionnelle, une fois via 1 000 personas synthétiques construits par Aaru.

L'enquête synthétique a retourné une corrélation de 95 % avec la réelle. EY a également recréé son rapport annuel Global Wealth Research Report en une seule journée, avec une corrélation médiane de plus de 90 % avec l'étude originale de six mois.

— Toni Clayton-Hine, CMO d'EY. Rapporté par Solomon Partners (sept. 2025).

Lire l'étude de cas
RECHERCHE ÉVALUÉE PAR LES PAIRS

L'argumentaire académique pour les répondants synthétiques

Quatre articles fondateurs publiés dans des revues de premier plan établissent que les données synthétiques calibrées reproduisent les réponses d'enquêtes humaines avec rigueur.

Journal of Marketing
Arora, Chakraborty & Nishimura · 2025 · Vol. 89(2)

Hybrides IA–humain pour la recherche marketing

L'hybride IA–humain génère des données riches et cohérentes qui dépassent les données purement humaines en profondeur et en perspicacité, et égalent les performances humaines dans la génération de thèmes. L'hybride LLM a retrouvé 77 % des thèmes identifiés par les analystes humains.

DOI : 10.1177/00222429241276529
arXiv
Maier et al. · octobre 2025 · arXiv:2510.08338

Les LLM reproduisent l'intention d'achat humaine via la similarité sémantique

Testée sur 9 300 réponses humaines couvrant 57 enquêtes de soins personnels, la méthode Semantic Similarity Rating a atteint 90 % de la fiabilité test-retest humaine. La similitude de distribution avec les données réelles a dépassé 0,85 (Kolmogorov–Smirnov).

Lire sur arXiv
Political Analysis
Argyle et al. · 2023 · Cambridge University Press

Out of One, Many : Utiliser les modèles de langage pour simuler des échantillons humains

L'article fondateur des « silicon samples ». GPT-3 conditionné par des profils sociodémographiques émule avec précision les distributions de réponses des sous-groupes humains, reproduisant fidèlement les résultats d'enquêtes réelles auprès de populations diverses.

DOI : 10.1017/pan.2023.2
Psychology & Marketing
Sarstedt, Adler, Rau & Schmitt · 2024 · Vol. 41(6)

Utilisation des LLM pour générer des silicon samples en recherche consommateur et marketing

Établit des lignes directrices académiques formelles pour le silicon sampling. Conclut que les échantillons synthétiques sont particulièrement prometteurs en amont du processus de recherche : prétests qualitatifs, études pilotes et génération d'hypothèses.

DOI : 10.1002/mar.21982

Voir la science à l'œuvre

Générez des personas, lancez un sondage ou un entretien, et découvrez ce que les répondants synthétiques révèlent — en quelques minutes.