A/B testing

Intervalles de confiance : éviter les lectures abusives en A/B

Par La rédaction
Publié le 20 juin 2026 · 17 min de lecture

L’intervalle de confiance ne dit pas si un test a gagné, il dit à quel point l’effet mesuré reste incertain

Dans un programme CRO, conversion rate optimization, discipline qui vise à améliorer la capacité d’un parcours digital à transformer le trafic en valeur mesurable, l’intervalle de confiance est souvent affiché dans les dashboards d’A/B testing comme un détail statistique secondaire. Pourtant, c’est l’un des indicateurs les plus importants pour décider s’il faut déployer, retester, segmenter ou abandonner une variante. Le problème n’est pas que les équipes marketing ignorent son existence. Le problème est qu’elles le lisent fréquemment comme un verdict alors qu’il s’agit d’une mesure d’incertitude.

Une variante peut afficher un uplift de +8 % sur le taux de conversion avec un intervalle de confiance allant de -1 % à +17 %. Présentée dans un comité de performance, la première partie de la phrase attire immédiatement l’attention : +8 %. La seconde devrait pourtant gouverner la décision : l’effet plausible inclut encore une baisse. À l’inverse, une variante peut afficher +2,5 % avec un intervalle de +1,2 % à +3,8 % sur un checkout générant plusieurs dizaines de millions d’euros de marge annuelle. Ce résultat paraît moins spectaculaire, mais il est beaucoup plus actionnable.

Pour les professionnels du marketing orientés ROI, return on investment, ratio entre le gain économique produit et le coût engagé, l’enjeu est concret. Une mauvaise lecture des intervalles de confiance peut conduire à déployer des variations qui ne créent aucune valeur incrémentale, à couper trop tôt des tests prometteurs, à surpondérer des segments post-rationalisés, ou à réallouer du budget média sur la base d’un signal fragile. Dans un contexte où le CPA, coût par acquisition, c’est-à-dire le coût marketing nécessaire pour générer une conversion ou un client qualifié, et le ROAS, return on ad spend, ratio entre chiffre d’affaires attribué et dépenses publicitaires, sont déjà soumis aux biais d’attribution et de consentement, ajouter une couche de mauvaise interprétation statistique est coûteux.

L’intervalle de confiance doit donc être traité comme une information décisionnelle de premier rang. Il ne remplace pas le jugement business, mais il empêche de confondre estimation ponctuelle et réalité. Il oblige à penser en plage de résultats plausibles, en coût de l’erreur, en taille d’effet minimale pertinente et en robustesse du protocole. Autrement dit, il transforme le test A/B, méthode expérimentale comparant des variantes auprès de groupes randomisés, d’un exercice de classement gagnant-perdant en un outil de gestion du risque.

Comprendre ce qu’un intervalle de confiance mesure réellement

Un intervalle de confiance est une plage d’estimations compatibles avec les données observées et le modèle statistique utilisé. Dans un cadre fréquentiste classique, un intervalle de confiance à 95 % ne signifie pas qu’il y a 95 % de probabilité que le vrai effet soit dans cet intervalle pour ce test précis. Il signifie que si l’on répétait un très grand nombre d’expériences identiques, 95 % des intervalles construits selon la même méthode contiendraient la vraie valeur de l’effet. Cette nuance peut sembler académique, mais elle évite une erreur fréquente : lire l’intervalle comme une probabilité directe appliquée au résultat obtenu.

En pratique marketing, l’intérêt reste très opérationnel. L’intervalle donne une estimation de l’incertitude autour de l’uplift. Plus l’échantillon est grand, plus les événements de conversion sont nombreux, plus la variance est faible, et plus l’intervalle se resserre. À l’inverse, un faible volume, un taux de conversion bas, une forte hétérogénéité des visiteurs ou un effet réel faible produisent des intervalles larges. L’intervalle rappelle donc que l’uplift affiché dans l’outil n’est qu’un point estimate, c’est-à-dire une estimation ponctuelle parmi d’autres valeurs plausibles.

Prenons un exemple simple. Une landing page reçoit 100 000 visiteurs par variante. La version A convertit à 4,00 %, soit 4 000 conversions. La version B convertit à 4,20 %, soit 4 200 conversions. L’uplift relatif est de +5 %. Sur un volume de cette taille, l’intervalle de confiance autour de l’écart peut rester suffisamment large pour rendre l’effet encore incertain selon le seuil choisi. Si la même différence est observée sur 1 million de visiteurs par variante, l’intervalle se resserre fortement. Le résultat n’est pas plus grand, mais il est mieux estimé.

C’est pourquoi il est dangereux de comparer des tests uniquement par leur uplift. Un test à +12 % sur 3 000 visiteurs peut être moins fiable qu’un test à +2 % sur 600 000 visiteurs. Le premier peut être utile pour générer une hypothèse, mais il ne devrait pas déclencher un déploiement majeur sans validation. Le second peut être économiquement très significatif si le funnel, c’est-à-dire le parcours allant de l’exposition marketing à la conversion puis à la fidélisation, porte suffisamment de volume.

L’intervalle de confiance dépend aussi du KPI choisi. Un taux de clic sur un CTA produit souvent beaucoup plus d’événements qu’une commande, un SQL, sales qualified lead, lead accepté par les ventes comme opportunité potentielle, ou une vente récurrente à 90 jours. Il est donc plus facile d’obtenir un intervalle étroit sur une micro-conversion que sur une métrique business finale. Mais cela ne rend pas la micro-conversion plus importante. Une équipe CRO mature accepte souvent une incertitude plus élevée sur une métrique aval, tout en utilisant les métriques amont pour comprendre le mécanisme.

Les lectures abusives les plus fréquentes dans les dashboards d’A/B testing

La première lecture abusive consiste à confondre intervalle qui exclut zéro et décision de déploiement. Si l’intervalle de confiance de l’effet est entièrement positif, le résultat est statistiquement compatible avec un gain. Mais cela ne suffit pas à prouver que le gain est businessment utile. Une variante peut avoir un effet estimé entre +0,1 % et +1,2 % sur le taux de conversion. Sur une page à faible valeur ou avec un coût de développement élevé, cet effet peut être insuffisant. La question n’est pas seulement : l’effet existe-t-il ? Elle est : l’effet plausible dépasse-t-il le seuil minimal de valeur qui justifie le déploiement ?

La deuxième erreur consiste à regarder uniquement la borne supérieure. Une variante affichant un intervalle de -3 % à +15 % est souvent présentée comme un potentiel de gain important. En réalité, elle est surtout incertaine. La borne supérieure décrit ce qui pourrait être vrai dans un scénario favorable, mais la borne inférieure rappelle que la variante pourrait aussi dégrader la performance. Pour une modification réversible et peu coûteuse, ce risque peut être acceptable. Pour une refonte du checkout ou un changement de pricing, il ne l’est généralement pas.

La troisième erreur consiste à interpréter un intervalle large comme une preuve d’absence d’effet. Un test neutre avec un intervalle de -10 % à +12 % n’a pas démontré que la variante ne fonctionne pas. Il a démontré que le test ne permet pas de conclure. La différence est majeure. Dans un roadmap CRO, ce type de résultat peut indiquer un sous-dimensionnement, une mauvaise exposition au composant testé, un KPI trop rare, ou une hypothèse trop diffuse. Abandonner systématiquement ces idées revient à confondre absence de preuve et preuve d’absence.

La quatrième erreur est le cherry picking de segments. Le résultat global affiche un intervalle de -1 % à +3 %, donc l’équipe explore les découpes : mobile, desktop, nouveaux visiteurs, paid social, CRM, Safari, visiteurs à forte profondeur de scroll. Elle trouve ensuite un segment mobile iOS issu du paid social avec un intervalle de +4 % à +18 %. Si ce segment n’était pas pré-déclaré, il doit être traité comme exploratoire. Plus on multiplie les analyses, plus on augmente la probabilité de trouver un signal apparemment convaincant par hasard. L’intervalle affiché sur ce segment ne corrige pas automatiquement ce risque de multiplicité.

La cinquième erreur concerne les tests arrêtés trop tôt. Regarder l’intervalle quotidiennement et arrêter dès qu’il exclut zéro revient à pratiquer du peeking, c’est-à-dire consulter les résultats en continu et interrompre l’expérience au moment favorable. Sans méthode séquentielle prévue pour cela, cette pratique augmente le risque de faux positif. Un intervalle de confiance calculé comme si le test avait été analysé une seule fois à la fin du protocole devient alors trompeur.

Enfin, beaucoup d’équipes oublient que les intervalles reposent sur des hypothèses : randomisation correcte, indépendance relative des observations, stabilité du tracking, cohérence des populations, absence de contamination entre variantes. Si un SRM, sample ratio mismatch, écart anormal entre la répartition attendue et observée des utilisateurs entre variantes, apparaît dans le test, un intervalle mathématiquement propre peut rester décisionnellement inutilisable. La statistique ne répare pas un protocole cassé.

Relier l’intervalle de confiance à la taille d’effet minimale pertinente

La bonne pratique consiste à définir avant le lancement du test une taille d’effet minimale pertinente. Dans les outils d’expérimentation, on parle souvent de MDE, minimum detectable effect, effet minimal détectable avec une puissance statistique donnée. Mais le MDE ne doit pas être seulement un paramètre technique choisi pour faire rentrer le test dans deux semaines. Il doit être relié à la valeur business : marge, revenu incrémental, coût d’implémentation, risque opérationnel et impact sur les métriques aval.

Supposons qu’un site e-commerce réalise 20 millions d’euros de chiffre d’affaires annuel sur une catégorie, avec une marge contributive de 35 %. Une amélioration de 1 % du revenu par visiteur sur cette catégorie représente environ 70 000 euros de marge annuelle. Si le coût complet de déploiement est de 15 000 euros et que le risque de retour ou d’impact UX est faible, un effet de +1 % peut être pertinent. Sur une petite landing page B2B générant 200 000 euros de pipeline annuel, le même +1 % ne justifie peut-être pas un sprint technique et un effort QA.

L’intervalle de confiance doit donc être comparé à un seuil de valeur, pas seulement à zéro. Si le seuil business minimal est +3 % et que l’intervalle observé est de +0,5 % à +4,5 %, la variante est probablement positive, mais l’incertitude autour de sa valeur réelle reste importante. La décision peut être de déployer progressivement, de retester sur plus de volume, ou de réserver le déploiement aux segments à moindre risque. Si l’intervalle est de +3,5 % à +6,5 %, la décision est beaucoup plus claire.

Ce raisonnement change aussi la lecture des tests négatifs. Si une variante stratégique, par exemple une simplification de formulaire, affiche un intervalle de -0,5 % à +2,0 % alors que le seuil de valeur est +1 %, le test n’est pas nécessairement à jeter. Il peut contenir une probabilité raisonnable de gain modéré, mais insuffisamment établie. Si le coût d’implémentation est faible et les guardrails stables, un déploiement limité peut se défendre. Si le changement touche la qualité lead ou la conformité, un retest est préférable.

Un framework utile consiste à classer les intervalles en quatre zones :

Zone de gain robuste. La borne inférieure dépasse le seuil business minimal. Le déploiement est généralement justifié si les guardrails sont propres.
Zone de gain plausible mais incertain. L’intervalle est majoritairement positif mais recoupe le seuil minimal. L’action dépend du coût, du risque et de la réversibilité.
Zone non concluante. L’intervalle traverse zéro avec une amplitude large. Le test doit nourrir un apprentissage ou être redimensionné.
Zone de risque. La borne supérieure ne compense pas une borne inférieure fortement négative, ou les guardrails se dégradent. Le déploiement doit être bloqué.

Cette approche rend le débat plus mature. Elle évite de demander au test une certitude qu’il ne peut pas fournir, tout en empêchant les décisions impulsives basées sur l’uplift affiché. Elle aligne la statistique sur le coût d’opportunité réel du programme CRO.

Dimensionner les tests pour obtenir des intervalles exploitables

Un intervalle trop large est souvent le symptôme d’un test mal dimensionné. Avant de lancer une expérimentation, l’équipe doit estimer le volume disponible, le taux de conversion de base, l’effet minimal pertinent, la durée nécessaire et le niveau de puissance souhaité. La puissance statistique désigne la probabilité de détecter un effet réel d’une certaine taille. Une puissance de 80 % signifie qu’un test correctement conçu a 80 % de chances de détecter l’effet ciblé s’il existe réellement, et 20 % de chances de passer à côté.

Exemple : une page de demande de démo reçoit 40 000 visiteurs mensuels et convertit à 3 %. L’équipe souhaite détecter un uplift relatif de +5 %, soit un passage de 3,00 % à 3,15 %. Cet effet représente 60 leads supplémentaires par mois avant qualification. Selon les paramètres statistiques, il faudra probablement un volume très supérieur à ce que la page génère en deux semaines. Si le test est lancé sur 10 jours, l’intervalle autour de l’effet sera probablement trop large pour conclure. Le résultat pourra être utile comme signal directionnel, mais pas comme preuve de déploiement.

Les équipes sous-estiment souvent ce problème lorsque le taux de conversion est faible. Un taux de clic à 20 % permet d’accumuler vite des événements. Un achat à 1,2 %, un abonnement payant à 0,4 % ou un SQL à 0,15 % exigent beaucoup plus de trafic. C’est l’une des raisons pour lesquelles les programmes CRO B2B doivent parfois compléter les tests A/B par d’autres méthodes : tests séquentiels bien encadrés, analyses quasi-expérimentales, tests de régression sur cohortes, études qualitatives, ou expérimentation sur des micro-conversions fortement corrélées aux métriques aval.

La durée du test compte aussi. Un test qui couvre seulement trois jours peut être biaisé par le mix hebdomadaire : trafic B2B plus fort en semaine, comportements mobiles différents le week-end, campagnes email envoyées le mardi, promotions du vendredi. La plupart des tests marketing doivent couvrir au moins un cycle hebdomadaire complet, souvent deux, sauf volumes très élevés et trafic stable. Mais prolonger indéfiniment un test n’est pas toujours la solution : plus la durée augmente, plus le risque d’interférences externes augmente aussi, notamment promotions, changements media, saisonnalité ou concurrence.

Il faut également dimensionner au niveau de l’unité réellement randomisée. Si l’allocation se fait par utilisateur mais que la conversion est mesurée par session, l’indépendance des observations peut être surestimée. Si des visiteurs reviennent plusieurs fois, si des comptes B2B impliquent plusieurs décideurs, ou si des paniers sont partagés entre devices, le calcul naïf des intervalles peut être trop optimiste. Pour des environnements complexes, l’équipe data doit vérifier que la méthode de calcul reflète la structure réelle des données.

Enfin, l’exposition au composant testé doit être mesurée. Un test lancé sur une page produit mais dont seulement 35 % des visiteurs voient réellement le module modifié dilue l’effet. L’intervalle calculé sur l’ensemble du trafic éligible peut être large, alors que l’effet sur les visiteurs exposés est plus marqué. Mais analyser uniquement les exposés peut introduire un biais si l’exposition dépend du comportement utilisateur, par exemple du scroll. La solution consiste à distinguer intention-to-treat, analyse de tous les utilisateurs assignés, et per-protocol, analyse des utilisateurs effectivement exposés, en sachant que la première est plus robuste causalement et la seconde plus utile pour comprendre le mécanisme.

Intervalles, attribution et acquisition : quand l’incertitude statistique rencontre l’incertitude marketing

Les tests A/B ne vivent pas dans un vide analytique. Ils sont exposés aux variations d’acquisition, aux modèles d’attribution et aux mécanismes d’optimisation média. L’attribution, méthode qui assigne une conversion à un ou plusieurs points de contact marketing, peut donner une lecture différente de l’effet observé onsite. Une variante peut améliorer le taux de conversion dans l’outil d’expérimentation, mais ne produire aucun gain incrémental dans le CRM ou dans les ventes nettes. À l’inverse, une variation peut sembler neutre à court terme mais améliorer la qualité des leads et le taux de closing à 60 jours.

Dans les campagnes automatisées, l’incertitude se renforce. En RTB, real-time bidding, mécanisme d’enchères en temps réel permettant d’acheter une impression publicitaire disponible, les plateformes ajustent la diffusion en fonction des signaux de performance. Les DSP, demand-side platforms, plateformes utilisées par les annonceurs pour acheter des impressions programmatiques, peuvent modifier le mix d’audience ou d’inventaire pendant la période de test. Si le trafic envoyé à une variante n’est pas strictement comparable, l’intervalle de confiance calculé sur la conversion onsite ne capture pas tout le risque d’interprétation.

Un cas fréquent : une landing page B est testée pendant une période où le paid search marque augmente de 20 % à la suite d’une campagne TV. Le taux de conversion global de B progresse et son intervalle exclut zéro. Pourtant, le segment paid social prospecting, plus coûteux et plus stratégique pour la croissance, reste neutre avec un intervalle de -4 % à +5 %. Le résultat global est statistiquement positif, mais la décision média ne doit pas conclure que la variante améliore l’acquisition froide. Elle améliore peut-être surtout la captation d’une demande déjà intentionniste.

Les intervalles doivent donc être lus par segments pré-déclarés lorsque ces segments ont une importance stratégique : device, nouveau versus récurrent, canal d’acquisition, pays, statut client, type de page, niveau d’intention. Mais cette segmentation doit être disciplinée. Un segment doit être défini avant le test, avec une hypothèse spécifique et un volume suffisant. Sinon, l’analyse doit rester exploratoire et alimenter un nouveau test.

Il est également utile d’associer à chaque test une fiche d’environnement marketing : campagnes actives, budgets, promotions, changements de prix, emails envoyés, fenêtres d’attribution, anomalies tracking, changements de consentement. Cette documentation ne rend pas l’intervalle plus étroit, mais elle rend son interprétation plus fiable. Une borne inférieure positive n’a pas la même valeur si le test s’est déroulé dans des conditions stables que si trois campagnes majeures ont changé d’objectif d’enchère au milieu de l’expérience.

La lecture downstream est indispensable pour les tests qui touchent la promesse, le prix, le formulaire ou le niveau de friction. En génération de leads, un intervalle positif sur le submit peut masquer un intervalle négatif sur le SQL ou le pipeline. En e-commerce, un intervalle positif sur la commande peut masquer une hausse des retours, des annulations ou des tickets support. Pour éviter cette myopie, l’équipe doit définir un KPI primaire proche de la valeur et des guardrails, c’est-à-dire des métriques de garde-fou empêchant de déployer un gain local destructeur ailleurs.

Adapter la décision au coût de l’erreur plutôt qu’à un seuil statistique unique

Le seuil de 95 % est un repère utile, mais il ne devrait jamais devenir une religion. Une décision CRO est un arbitrage sous incertitude. Le bon niveau de preuve dépend du coût d’une fausse victoire, du coût d’un faux rejet, de la réversibilité du déploiement et de la valeur attendue. Déployer à tort une micro-variation de wording sur une FAQ a un coût limité. Déployer à tort un nouveau checkout, une remise dynamique ou un changement de formulaire lead peut affecter la marge, la fraude, le support, les équipes sales ou la conformité.

Un framework décisionnel simple consiste à croiser trois dimensions : amplitude de l’intervalle, impact business potentiel et risque opérationnel. Si l’intervalle est étroit et entièrement au-dessus du seuil de valeur, le risque statistique est faible. Si l’impact business est élevé et le risque opérationnel faible, le déploiement est prioritaire. Si l’impact business est élevé mais le risque opérationnel fort, l’équipe peut choisir un déploiement progressif, par exemple 10 %, 25 %, 50 %, avec monitoring des guardrails. Si l’intervalle est large et le risque fort, le retest est généralement préférable.

La notion de valeur attendue aide à dépasser le fétichisme du gagnant. Supposons une variante avec un effet plausible médian de +2 %, un intervalle de -0,5 % à +4,5 %, et une marge annuelle exposée de 5 millions d’euros. Le gain médian attendu est 100 000 euros, mais la borne basse implique une perte de 25 000 euros. Si le déploiement coûte 8 000 euros et peut être rollbacké en 24 heures, le risque est acceptable. Si le déploiement implique une refonte front-end lourde, une dette technique et un impact potentiel sur le support, il ne l’est plus.

Les approches bayésiennes peuvent aider certaines équipes à raisonner en probabilité de gain et en perte attendue. Une analyse bayésienne peut répondre à des questions intuitives : quelle est la probabilité que l’effet soit supérieur à +1 % ? Quelle est la probabilité que la variante soit négative ? Quelle est la distribution de la valeur attendue ? Mais cette approche n’élimine pas les problèmes de base. Un mauvais tracking, un SRM, un peeking non maîtrisé ou un segment choisi après coup restent problématiques, que l’analyse soit fréquentiste ou bayésienne.

Le pilotage mature consiste donc à formaliser les règles avant le test. Par exemple : déploiement automatique si l’intervalle de confiance à 95 % est entièrement supérieur au seuil de valeur et si aucun guardrail rouge ne se dégrade ; retest si l’intervalle traverse le seuil mais reste majoritairement positif ; abandon si la borne supérieure est inférieure au seuil de valeur ; analyse exploratoire si le résultat global est neutre mais qu’un segment pré-déclaré montre un signal cohérent. Ces règles ne suppriment pas le jugement, mais elles réduisent l’arbitraire.

Mettre en place une gouvernance qui rend les intervalles actionnables

Pour que les intervalles de confiance améliorent réellement les décisions, ils doivent être intégrés dans la gouvernance CRO. Le premier chantier est la standardisation des fiches de test. Chaque test devrait documenter l’hypothèse, le KPI primaire, les métriques secondaires, les guardrails, le MDE, la durée minimale, la taille d’échantillon attendue, les segments confirmatoires et la règle d’arrêt. Sans ces éléments, l’intervalle observé à la fin du test arrive trop tard pour structurer une décision rigoureuse.

Le deuxième chantier est la présentation des résultats. Un bon reporting ne doit pas afficher seulement A, B, uplift et gagnant. Il doit montrer l’estimation ponctuelle, l’intervalle de confiance, la borne basse, la borne haute, le seuil de valeur, les volumes, les conversions, la durée, les anomalies, les guardrails et les segments pré-déclarés. Visuellement, la question doit être : où se situe toute la plage plausible par rapport au seuil business ? Pas : la barre est-elle verte ?

Le troisième chantier est l’éducation des parties prenantes. Les directions marketing, produit et commerciales doivent comprendre qu’un résultat non concluant n’est pas un échec. C’est parfois un résultat de qualité : il évite un faux déploiement, il révèle un problème de volume, il affine une hypothèse, ou il montre qu’une friction supposée n’a pas l’effet attendu. À l’inverse, un résultat gagnant mais très incertain doit être traité avec prudence, même s’il soutient une intuition interne.

Le quatrième chantier est l’archivage. Chaque test doit alimenter une base de connaissance avec son intervalle, sa décision, son effet post-déploiement et les écarts observés en production. Si les tests déployés avec des intervalles larges reproduisent rarement leur performance, l’organisation doit relever ses seuils. Si certains segments pré-déclarés se confirment régulièrement, ils peuvent devenir des axes stratégiques de personnalisation ou de priorisation. Le programme CRO apprend alors de ses propres erreurs d’interprétation.

Enfin, la gouvernance doit séparer trois statuts : preuve, signal et hypothèse. Une preuve justifie une décision de déploiement. Un signal justifie un retest, une itération ou un déploiement limité. Une hypothèse justifie une exploration qualitative ou un nouveau design expérimental. Beaucoup d’abus viennent du fait que des hypothèses sont présentées comme des preuves parce qu’un intervalle local paraît favorable.

Conclusion : utiliser l’incertitude comme un outil de décision, pas comme une contrainte statistique

Les intervalles de confiance ne sont pas un supplément technique réservé aux analystes. Ils sont un instrument de pilotage pour toute équipe marketing qui veut transformer l’expérimentation en valeur durable. Ils rappellent que l’uplift affiché n’est jamais la vérité, mais une estimation entourée d’incertitude. Bien lus, ils empêchent de déployer des faux gagnants, de jeter trop vite des idées prometteuses et de confondre performance locale avec création de valeur incrémentale.

Une méthode actionnable tient en huit étapes. Premièrement, définir avant chaque test le KPI primaire, les guardrails et le seuil business minimal qui rend l’effet pertinent. Deuxièmement, dimensionner le test avec un MDE réaliste, une durée minimale et un volume compatible avec la rareté de la conversion. Troisièmement, contrôler la randomisation, le SRM, l’exposition réelle et la qualité du tracking avant d’interpréter l’intervalle. Quatrièmement, lire l’intervalle par rapport au seuil de valeur, pas seulement par rapport à zéro. Cinquièmement, distinguer segments pré-déclarés et explorations post-test. Sixièmement, documenter les conditions d’acquisition, d’attribution, de promotion et de consentement pendant l’expérience. Septièmement, adapter la décision au coût de l’erreur et à la réversibilité du déploiement. Huitièmement, archiver les résultats pour comparer l’effet expérimental à l’effet réellement capturé en production.

La règle stratégique est simple : un test A/B ne doit pas répondre uniquement à la question quelle variante a gagné ? Il doit répondre à une question plus utile : quelle plage d’effets pouvons-nous raisonnablement attendre, avec quel niveau de risque, sur quelle valeur business, et dans quelles conditions de déploiement ? Les intervalles de confiance rendent cette question visible. Ils ne ralentissent pas la CRO ; ils protègent sa crédibilité économique.

intervalles de confiance a/b testing statistique cro uplift expérimentation roi