A/B testing

Holdout groups : mesurer l’incrémentalité d’un test A/B

Par La rédaction
Publié le 23 juin 2026 · 15 min de lecture

Le holdout répond à la question que le test A/B classique laisse souvent ouverte

Un test A/B peut démontrer qu’une variante performe mieux qu’une autre sur une population exposée. Il ne démontre pas toujours que l’action testée crée une valeur incrémentale nette pour l’entreprise. Cette nuance est critique pour les équipes CRO, conversion rate optimization, discipline qui vise à améliorer la capacité d’un parcours digital à transformer le trafic en valeur business mesurable. Une bannière de réassurance peut augmenter le taux de clic. Une remise affichée plus tôt peut améliorer le taux de paiement. Un email de relance peut générer des commandes attribuées. Mais quelle part de cette performance se serait produite sans l’intervention ?

C’est précisément le rôle d’un holdout group, groupe d’utilisateurs volontairement exclu d’une action afin d’estimer le scénario contrefactuel. Le contrefactuel désigne ce qui se serait passé en l’absence de l’intervention. Dans un environnement marketing saturé de signaux attribués, cette question devient centrale. Le CPA, coût par acquisition, soit le coût marketing nécessaire pour générer un client ou une conversion qualifiée, peut paraître excellent si l’action touche surtout des utilisateurs déjà proches de la conversion. Le ROAS, return on ad spend, ratio entre chiffre d’affaires attribué et dépenses publicitaires, peut être flatteur si une campagne capte une demande existante. Le funnel, parcours allant de la première exposition marketing à la conversion puis à la fidélisation, peut sembler amélioré alors que l’effet réel est seulement un déplacement de conversions d’un point de contact vers un autre.

L’attribution, méthode qui assigne une conversion à un ou plusieurs points de contact marketing, répond à une logique de répartition. Le holdout répond à une logique causale. Dans un test A/B standard, la variante B est comparée à la variante A. Dans un dispositif avec holdout, une partie de la population éligible ne reçoit pas l’action ou reste sur une expérience neutre, afin de mesurer le niveau naturel de conversion. Cette différence paraît subtile, mais elle change la nature de la décision. On ne cherche plus seulement quelle version gagne. On cherche si l’action mérite d’exister, pour quel segment, avec quelle pression et à quel coût d’opportunité.

Pour des professionnels du marketing, l’enjeu n’est pas académique. Un programme CRO mature ne peut pas se contenter d’optimiser des interfaces en silo. Il doit savoir si une personnalisation, un message promotionnel, une relance email, une séquence retargeting ou une expérience de landing page ajoute réellement de la marge incrémentale. Sans holdout, une équipe peut industrialiser des optimisations qui augmentent les conversions attribuées tout en cannibalisant des ventes naturelles, en dégradant la marge ou en entraînant les plateformes média sur de mauvais signaux.

Distinguer test A/B, groupe de contrôle et holdout incrémental

Le test A/B testing, méthode expérimentale qui compare deux versions d’une expérience auprès de populations comparables, repose sur une randomisation. Une partie des utilisateurs voit la version A, une autre voit la version B. Si la répartition est correcte et que le volume est suffisant, l’écart observé peut être interprété comme l’effet de la variante. Dans un contexte CRO, cela permet de comparer deux formulations de proposition de valeur, deux ordres d’étapes dans un formulaire, deux mises en avant de preuve sociale ou deux pages produit.

Le groupe de contrôle est la population de référence. Il peut correspondre à l’expérience actuelle, à une version neutre ou à l’absence d’intervention. Le holdout est un cas particulier de groupe de contrôle : il est maintenu volontairement en dehors de l’action dont on veut mesurer l’incrémentalité. Par exemple, si une marque veut mesurer l’impact réel d’une relance panier par email, elle peut envoyer la séquence à 90 % des utilisateurs éligibles et exclure 10 % de façon persistante. Les commandes du groupe exposé ne sont pas toutes incrémentales. L’effet incrémental correspond à l’écart de performance entre les utilisateurs relancés et les utilisateurs comparables non relancés.

Cette distinction évite une erreur fréquente : confondre performance du test et performance du programme. Un test A/B peut conclure que la relance avec remise de 10 % génère plus de commandes que la relance sans remise. Mais si les deux groupes reçoivent une relance, le test ne dit pas si relancer est préférable à ne pas relancer. Il répond à la question quelle relance est meilleure, pas à la question la relance crée-t-elle de la valeur incrémentale. Pour y répondre, il faut un holdout non relancé, ou au minimum un groupe exposé à une intervention neutre.

Le même raisonnement s’applique aux landing pages. Comparer deux pages d’acquisition peut être pertinent pour optimiser une campagne. Mais si l’objectif est de mesurer l’incrémentalité d’un nouveau module de réassurance, il faut isoler l’effet du module. La version contrôle doit être identique sauf sur l’élément testé, ou le protocole doit intégrer un groupe non exposé à l’action. Sinon, l’équipe mélange l’effet du design global, du trafic, du message média et de la friction spécifique.

Trois niveaux de lecture doivent donc être séparés. Le premier est l’effet relatif entre variantes : B bat A de 6 % sur le taux de conversion. Le deuxième est l’effet incrémental de l’action : exposer les utilisateurs au dispositif augmente la marge par visiteur de 0,18 euro par rapport au holdout. Le troisième est l’effet économique net : après coût média, remise, coût technique et éventuelle dégradation de qualité client, le gain net est positif ou non. Un test A/B robuste peut répondre au premier niveau. Un holdout bien conçu permet d’approcher les deux suivants.

Construire un protocole de holdout sans fragiliser l’expérience ni la mesure

Un holdout utile commence par une définition précise de la population éligible. Il ne s’agit pas de prélever au hasard n’importe quels visiteurs du site. Il faut identifier les utilisateurs qui auraient pu recevoir l’action : visiteurs ayant abandonné un panier, prospects arrivant sur une landing page paid social, clients dormants éligibles à une campagne CRM, utilisateurs exposables à une personnalisation onsite, audience retargetable via une DSP, demand-side platform, plateforme permettant aux annonceurs d’acheter des impressions publicitaires programmatiques. La population de holdout doit être tirée dans cet univers d’éligibilité, pas dans l’ensemble du trafic.

La deuxième décision porte sur l’unité de randomisation. Pour un parcours court, une randomisation à la session peut suffire. Pour un achat multi-visites, un abonnement, une séquence CRM ou une campagne B2B, la randomisation doit généralement être persistante au niveau utilisateur, compte, cookie first-party ou identifiant CRM. Sinon, un même individu peut être dans le groupe holdout lundi, dans le groupe exposé mercredi et convertir vendredi. La contamination rend alors l’effet causal difficile à interpréter.

La troisième décision concerne la taille du holdout. Beaucoup d’équipes choisissent 5 % ou 10 % par habitude. Ce choix doit plutôt dépendre du volume, du taux de conversion de base, de l’effet minimal que l’on veut détecter et du coût d’opportunité. Le MDE, minimum detectable effect, désigne l’effet minimal détectable avec une puissance statistique donnée. Si une population éligible compte 50 000 utilisateurs par mois et convertit naturellement à 2 %, détecter un uplift relatif de 3 % sera très difficile. Détecter un uplift relatif de 15 % sera plus réaliste. Un holdout trop petit permet de limiter la perte perçue, mais il peut produire un résultat indécidable.

La quatrième décision porte sur l’expérience du holdout. Dans certains cas, le groupe témoin ne reçoit rien. Dans d’autres, il reçoit l’expérience standard. Pour mesurer une personnalisation onsite, le holdout peut voir la page générique. Pour mesurer une relance email, il peut être exclu de la séquence. Pour mesurer une remise, il peut recevoir le message sans remise. Il faut être très explicite : teste-t-on l’existence de l’action, le contenu de l’action, la pression de contact ou l’avantage économique proposé ? Un holdout mal défini répond souvent à une question que personne n’avait réellement posée.

Enfin, le protocole doit prévoir une QA, quality assurance, processus de vérification avant lancement. Les points critiques sont le ciblage, la persistance de l’allocation, l’événement d’exposition, la compatibilité navigateur, le respect du consentement, la remontée serveur des conversions et la déduplication. Un SRM, sample ratio mismatch, écart anormal entre la répartition attendue et observée des utilisateurs entre groupes, doit être surveillé dès les premières heures. Un split prévu à 90/10 qui devient 94/6 sur Safari mobile n’est pas un détail statistique : c’est potentiellement un biais de ciblage.

Choisir les bons KPI : l’incrémentalité ne se mesure pas toujours en conversion brute

Le KPI primaire d’un holdout doit être proche de la valeur économique. Le taux de conversion est souvent insuffisant. En e-commerce, une variante peut augmenter les commandes en poussant des produits à faible marge ou en déclenchant davantage de retours. La marge par utilisateur éligible est souvent plus robuste que le chiffre d’affaires par session. Pour un SaaS B2B, software as a service vendu aux entreprises, le taux de lead peut être trompeur si la qualité se dégrade. Il faut regarder les SQL, sales qualified leads, leads acceptés par les ventes comme opportunités potentielles, le pipeline créé, le taux de rendez-vous tenu ou le revenu signé lorsque le délai le permet.

Un bon protocole distingue trois familles de métriques. La métrique primaire sert à décider. Les métriques explicatives servent à comprendre le mécanisme. Les garde-fous protègent contre les effets secondaires. Par exemple, pour un holdout sur une relance panier avec remise, la métrique primaire peut être la marge nette par utilisateur éligible. Les métriques explicatives peuvent inclure le taux d’ouverture, le taux de clic, le taux de retour au panier, le taux de paiement validé. Les garde-fous doivent inclure le taux de désabonnement, le taux d’utilisation de la remise par des clients qui auraient acheté sans incitation, le panier moyen et le taux de retour produit.

Prenons un exemple chiffré. Une enseigne dispose de 300 000 visiteurs mensuels ayant abandonné un panier. Elle met en place une relance email et SMS sur 270 000 utilisateurs, avec un holdout de 30 000 utilisateurs. Le groupe exposé convertit à 8,2 %. Le holdout convertit à 7,4 %. L’uplift absolu est de 0,8 point, soit environ 2 160 commandes incrémentales sur les 270 000 exposés. Si le panier moyen est de 92 euros, le chiffre d’affaires incrémental est d’environ 198 720 euros. Mais si la marge brute est de 34 %, que le coût d’envoi est de 8 000 euros et que les remises utilisées représentent 32 000 euros, la marge incrémentale nette est proche de 27 565 euros. Le reporting attribué pourrait revendiquer plus de 22 000 commandes exposées ; le holdout ramène la décision aux 2 160 commandes réellement ajoutées.

Autre cas : une landing page B2B ajoute un simulateur de ROI. Les visiteurs exposés soumettent 12 % de formulaires en plus que le holdout. Pris seul, le résultat semble positif. Mais le taux de SQL baisse de 18 %, car le simulateur attire des utilisateurs curieux, moins mûrs commercialement. Si le KPI primaire était le taux de formulaire, la variante serait déployée. Si le KPI primaire est le pipeline qualifié par visiteur, la décision peut être de réserver le simulateur à une audience de nurturing ou de modifier la qualification progressive. Le holdout n’est utile que si l’entreprise mesure la bonne valeur.

Il faut également distinguer effet moyen et effet marginal. Une action peut être incrémentale à faible pression mais non rentable lorsqu’on augmente la fréquence. Une relance unique peut créer de la valeur ; trois relances peuvent surtout cannibaliser des conversions naturelles et augmenter les désabonnements. Une bonne pratique consiste à tester plusieurs niveaux de pression : aucun contact, un contact, deux contacts, trois contacts. Le holdout permet alors de construire une courbe de réponse, pas seulement un verdict binaire.

Interpréter les résultats : ITT, TOT, intervalles et biais opérationnels

La lecture d’un holdout impose de choisir le bon estimand, c’est-à-dire la quantité statistique que l’on veut estimer. Deux lectures sont particulièrement importantes. L’ITT, intention to treat, mesure l’effet de l’assignation à l’action : tous les utilisateurs du groupe exposé sont comptés, même s’ils n’ont pas effectivement vu l’email, la bannière ou l’impression média. Le TOT, treatment on the treated, mesure l’effet sur les utilisateurs réellement traités. L’ITT est souvent plus robuste pour une décision business, car il reflète la performance du dispositif tel qu’il est opéré. Le TOT peut être utile pour comprendre l’efficacité de l’exposition, mais il est plus sensible aux biais de sélection.

Exemple : 100 000 utilisateurs sont assignés à une campagne onsite personnalisée, mais seuls 65 000 voient réellement le module à cause du consentement, du device ou du temps de chargement. Si le groupe assigné convertit à 5,6 % et le holdout à 5,1 %, l’effet ITT est de 0,5 point. Si l’on ne regarde que les 65 000 exposés réels, l’effet peut sembler plus élevé. Mais ces utilisateurs sont peut-être plus engagés, plus rapides à charger la page ou plus enclins à accepter les cookies. Pour décider du déploiement, l’ITT évite souvent de surestimer l’effet.

Les résultats doivent être présentés avec des intervalles d’incertitude. Dire qu’un holdout génère un iROAS de 2,1, incremental return on ad spend, revenu incrémental généré par euro investi, est moins utile que de dire que l’iROAS estimé se situe entre 1,4 et 2,8 avec les hypothèses du test. Dans une décision budgétaire, un canal estimé entre 0,7 et 3,2 ne doit pas être traité comme un canal prouvé à 2. L’incertitude fait partie de la mesure, surtout lorsque les volumes sont faibles ou que le cycle de conversion est long.

Plusieurs biais doivent être surveillés. Le premier est la contamination : des utilisateurs du holdout peuvent recevoir l’action via un autre canal, voir une offre relayée sur le site ou être touchés par un commercial. Le deuxième est l’effet de contexte : promotions, ruptures de stock, variation de prix, changements médias ou saisonnalité peuvent affecter différemment les groupes. Le troisième est le biais de mesure : les conversions offline ou CRM peuvent remonter avec retard, et ce retard peut différer selon les segments. Le quatrième est l’effet réseau : dans certaines catégories, un utilisateur exposé peut influencer un utilisateur holdout, par recommandation ou partage d’offre.

Dans les dispositifs média, la complexité augmente. En RTB, real-time bidding, mécanisme d’enchères en temps réel permettant d’acheter une impression publicitaire disponible, les algorithmes optimisent en continu. Si le test modifie les signaux de conversion envoyés aux plateformes, le mix d’audience peut évoluer pendant l’expérience. Une DSP peut concentrer les impressions sur les profils les plus réactifs, ce qui améliore la performance apparente mais réduit la comparabilité. Pour les tests incrémentaux média, il faut stabiliser autant que possible budgets, fenêtres d’attribution, exclusions d’audience et règles d’optimisation, puis documenter tout changement.

Un résultat neutre ne signifie pas nécessairement absence d’effet. Il peut signifier effet trop faible pour le volume disponible, KPI mal choisi, fenêtre de mesure trop courte ou segmentation trop agrégée. À l’inverse, un résultat positif global peut masquer une destruction de valeur sur un segment. Une analyse mature regarde les segments pré-spécifiés : nouveaux clients versus clients existants, mobile versus desktop, marque versus non-marque, audience froide versus retargeting, périodes promotionnelles versus périodes pleines. Les analyses exploratoires sont utiles, mais elles doivent être clairement séparées des conclusions confirmatoires.

Où utiliser des holdouts : CRM, personnalisation, retargeting et landing pages

Les holdouts sont particulièrement puissants lorsque l’action touche des utilisateurs déjà engagés, car le risque de surestimation attribuée y est élevé. Le CRM est le terrain le plus évident. Emailing de relance, campagnes de réactivation, push notifications, SMS promotionnels, séquences post-visite : toutes ces actions peuvent générer beaucoup de conversions attribuées parce qu’elles ciblent des populations à forte intention. Un holdout permanent de 5 % à 10 % sur certaines audiences permet de suivre l’incrémentalité dans le temps, au lieu de refaire ponctuellement des tests isolés.

La personnalisation onsite mérite également des holdouts. Un moteur de recommandation, un message de rareté, un bandeau de livraison offerte ou un module de preuve sociale peut améliorer des micro-conversions sans créer de valeur nette. Par exemple, afficher livraison offerte dès 50 euros peut augmenter le panier moyen, mais aussi faire basculer des clients qui auraient acheté à 47 euros vers un ajout marginal peu rentable. Le holdout doit alors mesurer la marge par visiteur, pas seulement le panier moyen.

Le retargeting est un autre cas critique. Les campagnes de reciblage affichent souvent des ROAS élevés parce qu’elles touchent des visiteurs récents, des abandonnistes panier ou des clients existants. Mais une part de ces conversions aurait eu lieu naturellement. Pour mesurer l’effet réel, il faut exclure aléatoirement une fraction de l’audience éligible des campagnes, idéalement de manière persistante. La comparaison entre audience exposable et audience exclue permet d’estimer la part incrémentale des conversions attribuées. Dans certains contextes, l’incrémentalité peut représenter 20 % à 50 % des conversions attribuées ; dans d’autres, elle peut être beaucoup plus forte si le produit est complexe ou la considération longue.

Les landing pages d’acquisition peuvent aussi intégrer des holdouts, mais avec prudence. Si l’équipe compare deux pages, le test A/B classique suffit souvent. Le holdout devient pertinent lorsqu’on veut mesurer l’effet d’un composant ou d’une stratégie d’expérience : personnalisation par source média, offre différenciée, preuve sociale dynamique, formulaire progressif, chatbot de qualification. Le protocole doit éviter de mélanger changement de page et changement de trafic. Les campagnes paid social, paid search et affiliation doivent être analysées séparément si leurs intentions sont différentes.

Enfin, les holdouts sont utiles pour tester des offres commerciales. Une remise, un essai gratuit prolongé ou un bonus de conversion peut améliorer fortement le taux de transformation, mais réduire la marge et modifier la qualité client. Le bon test ne compare pas seulement remise A contre remise B. Il inclut un groupe sans remise, ou un groupe avec message de valeur non promotionnel. Cela permet de calculer la cannibalisation : combien de clients auraient acheté sans incitation ? Sans cette lecture, l’équipe risque d’acheter sa propre conversion.

Mettre en production un système de holdout permanent sans ralentir le marketing

Le holdout ne doit pas être vécu comme un frein à l’exécution. Bien conçu, il devient une infrastructure de décision. Une approche pragmatique consiste à créer des holdouts permanents par famille d’activation : CRM, retargeting, personnalisation onsite, promotions, acquisition payante. Chaque holdout est documenté avec sa population, sa taille, son unité de randomisation, ses exclusions, ses KPI primaires et sa fréquence de lecture. L’objectif est de ne pas reconstruire un protocole à chaque campagne.

Un système mature repose sur quatre briques. La première est une couche d’identification fiable : identifiant utilisateur, identifiant client, cookie first-party, login ou clé CRM. La deuxième est un moteur d’allocation qui assigne les utilisateurs de manière persistante. La troisième est un journal d’exposition, enregistrant qui était éligible, qui a été assigné, qui a réellement reçu l’action et à quel moment. La quatrième est une consolidation business : commandes, marge, retours, qualité lead, pipeline, churn, LTV, lifetime value, valeur économique attendue d’un client sur toute sa relation avec l’entreprise.

La gouvernance est aussi importante que la technique. Les équipes doivent savoir quand un holdout est obligatoire. Par exemple : toute campagne CRM générant plus de 50 000 euros de chiffre d’affaires attribué par mois doit avoir un holdout ; toute promotion impactant la marge doit inclure un groupe sans incitation ; toute personnalisation déployée sur plus de 20 % du trafic doit être mesurée sur une métrique de valeur et un garde-fou. Ces règles évitent que la pression commerciale fasse disparaître les groupes témoins précisément au moment où ils sont les plus nécessaires.

Le coût d’opportunité doit être assumé explicitement. Exclure 10 % d’une audience d’une campagne supposée rentable peut sembler coûteux. Mais si le holdout révèle que 70 % des conversions attribuées étaient naturelles, il évite une mauvaise allocation budgétaire beaucoup plus coûteuse. La question n’est pas combien rapporte le holdout à court terme, mais combien d’erreurs de décision il évite. Dans les organisations avancées, ce coût est traité comme un investissement analytique, au même titre qu’un outil de mesure ou une étude de marché.

Il faut toutefois éviter la sur-expérimentation. Multiplier des holdouts sur chaque action peut fragmenter les audiences, ralentir les campagnes et créer des conflits de mesure. Une architecture d’expérimentation doit hiérarchiser les tests : holdouts permanents sur les leviers à forte valeur ou fort risque de cannibalisation, tests ponctuels sur les optimisations plus locales, analyses observationnelles pour les signaux secondaires. La discipline consiste à réserver la preuve expérimentale robuste aux décisions qui justifient son coût.

Conclusion : mesurer l’incrémentalité pour décider mieux, pas pour produire un chiffre de plus

Les holdout groups apportent au test A/B une dimension causale que les reportings attribués ne peuvent pas garantir. Ils permettent d’estimer ce qui se serait passé sans l’action, donc de distinguer conversions capturées et conversions réellement créées. Pour une équipe CRO, acquisition ou CRM, cette distinction change les arbitrages : déployer une variante, limiter une pression commerciale, réduire une remise, recalibrer un retargeting, modifier les signaux envoyés aux plateformes ou abandonner une personnalisation séduisante mais peu incrémentale.

Une méthode actionnable tient en huit étapes. Premièrement, définir la décision à prendre avant de définir le test. Deuxièmement, identifier la population réellement éligible à l’action. Troisièmement, randomiser au bon niveau, idéalement de façon persistante lorsque le cycle d’achat dépasse une session. Quatrièmement, dimensionner le holdout selon le volume, le taux de conversion de base et le MDE. Cinquièmement, choisir un KPI primaire proche de la valeur économique, avec métriques explicatives et garde-fous. Sixièmement, surveiller SRM, contamination, consentement, exposition réelle et stabilité du contexte. Septièmement, lire les résultats avec intervalles d’incertitude et segmentation pré-spécifiée. Huitièmement, documenter la décision et intégrer l’apprentissage aux futures activations.

Le point le plus important est culturel. Un holdout n’est pas un aveu de méfiance envers le marketing. C’est une protection contre les fausses certitudes. Il rappelle qu’un utilisateur exposé n’est pas nécessairement un utilisateur convaincu par l’exposition, qu’une conversion attribuée n’est pas nécessairement une conversion incrémentale, et qu’un uplift apparent peut cacher une cannibalisation. Dans un marché où le trafic payant coûte plus cher, où les signaux utilisateurs sont plus fragmentés et où les algorithmes optimisent sur ce qu’on leur renvoie, cette hygiène expérimentale devient un avantage compétitif.

Le bon objectif n’est pas de mesurer parfaitement chaque effet. C’est impossible. Le bon objectif est de réduire les erreurs coûteuses : surinvestir dans des actions qui interceptent une demande déjà acquise, couper des leviers moins visibles mais créateurs de valeur, déployer des remises qui achètent des conversions naturelles, ou piloter la CRO sur des micro-gains sans impact économique. Les holdout groups ne remplacent pas le jugement marketing. Ils lui donnent un socle plus solide : moins d’opinions, moins d’attribution flatteuse, plus de décisions fondées sur l’effet incrémental réel.

holdout incrémentalité test a/b cro attribution mesure