Méthodologie A/B test : échantillon, durée et erreurs à éviter

Lancer un A/B test, c’est facile. Le lire correctement, beaucoup moins. La plupart des équipes que j’accompagne pensent qu’un écart de 8 % entre deux variantes après 4 jours signifie que la variante B est meilleure. Souvent, c’est juste du hasard — et la décision business qui en découle est mauvaise.

Cet article couvre les trois questions à se poser avant de lancer un test, sans formules ni jargon. L’objectif : savoir si votre test est lisible avant d’en tirer des conclusions, pas devenir statisticien.

L’essentiel

Un test n’est utilisable que si on a calculé combien de visiteurs il faut avant de le lancer.
Regarder les résultats avant la fin (le “peeking”) fait prendre de mauvaises décisions dans 1 cas sur 4.
Un test doit durer au minimum une semaine complète, peu importe ce que disent les chiffres avant.
Significatif côté statistique ≠ rentable côté business : il faut toujours valider les deux.

Pourquoi un test “gagnant” peut être du hasard

Imaginez qu’on vous demande de prouver qu’une pièce est truquée. Vous la lancez 10 fois et tombez sur 7 piles. Est-ce que la pièce est truquée ? Non — sur 10 lancers, tomber sur 7 piles arrive régulièrement par pur hasard, même avec une pièce parfaitement équilibrée.

C’est exactement la même mécanique pour un A/B test. Une variante A à 5 % de conversion et une variante B à 6 %, sur 200 visiteurs par variante, ce sont 10 vs 12 conversions. L’écart semble net. En réalité, sur de si petits volumes, cette différence peut survenir par pure variation aléatoire.

La bonne question n’est pas “B est-il supérieur à A dans ces chiffres ?” mais “B serait-il toujours supérieur à A si je relançais ce test 100 fois ?”. Et la réponse dépend de combien de visiteurs vous avez collectés.

Les 3 questions à se poser avant de lancer

1. Combien de visiteurs il faut

Plus votre taux de conversion de base est faible, plus il faut de visiteurs pour détecter un écart fiable. Pareil pour la taille de l’écart que vous voulez détecter : plus il est petit, plus il faut de visiteurs.

Le tableau ci-dessous donne des ordres de grandeur réalistes. Pour chaque combinaison “taux de base / gain visé”, c’est le nombre de visiteurs par variante (donc à doubler pour le test complet).

Taux de conversion actuel	Gain à détecter	Visiteurs par variante
1 %	+20 % (vers 1,2 %)	~12 000
2 %	+20 % (vers 2,4 %)	~5 800
5 %	+20 % (vers 6 %)	~2 300
10 %	+20 % (vers 12 %)	~1 050
30 %	+20 % (vers 36 %)	~330
1 %	+10 % (vers 1,1 %)	~46 000
5 %	+10 % (vers 5,5 %)	~9 000
10 %	+10 % (vers 11 %)	~4 200

Deux constats utiles :

Une page de panier à 30 % de conversion peut tester avec quelques centaines de visiteurs par variante. C’est rapide.
Une homepage e-commerce à 2 % de conversion a besoin de plusieurs milliers de visiteurs par variante. Sur un site à faible trafic, certains tests sont tout simplement impossibles à mener proprement.

Outil gratuit pour calculer : Evan Miller’s A/B Test Sample Size Calculator. Vous entrez votre taux de base et le gain visé, il vous donne le nombre exact.

2. Combien de temps il faut

Même avec le bon nombre de visiteurs, il faut au minimum une semaine complète. Pourquoi ? Parce que le comportement des visiteurs varie selon les jours :

Lundi-vendredi : trafic pro, comportement d’achat différent
Samedi-dimanche : trafic loisir, panier moyen souvent différent
Comportement très différent selon que c’est le 1er ou le 28 du mois (paie)

Tester sur 3 jours sans inclure un week-end complet biaise les résultats. La règle simple : 2 cycles hebdomadaires complets, donc 14 jours minimum, est une bonne pratique pour les sites e-commerce.

3. À quel point l’écart vaut le coup

Avant de lancer, posez-vous la question : “si mon test détecte un gain de +5 %, est-ce que ça vaut le coût d’implémenter durablement la variante B ?”. Si la réponse est non, le test ne sert à rien — autant tester quelque chose de plus impactant.

Sur un site qui fait 100 000 € de revenu mensuel avec une conversion à 2 %, passer à 2,2 % (gain de +10 %) représente 10 000 € de revenu additionnel par mois. Ça change la donne. Mais sur un site qui fait 5 000 € / mois, le même gain représente 500 € — souvent moins que le coût d’implémentation.

Le piège du “gagnant à 5 jours”

C’est probablement l’erreur la plus répandue. Vous lancez votre test, vous regardez les chiffres quotidiennement, et vous décidez d’arrêter dès qu’un écart “significatif” apparaît. Mauvaise idée.

Pourquoi c’est dangereux

Quand on regarde les résultats tous les jours et qu’on s’arrête au premier seuil franchi, on multiplie mécaniquement le risque de se planter. Sur un test sans effet réel, le simple hasard fait que la variante B passe régulièrement au-dessus ou en-dessous de A — c’est le bruit normal. Si on s’arrête au “bon” moment, on déclare un faux gagnant.

Concrètement :

Sans peeking : on a 5 % de risque de se tromper (le seuil standard)
Avec peeking quotidien : ce risque monte à environ 25 %. Une décision sur quatre est fausse.

Le bon réflexe

Fixer la durée et le nombre de visiteurs à l’avance, et ne pas y toucher
Ne regarder les résultats qu’à la fin (ou seulement pour vérifier que le test tourne bien, pas pour prendre une décision)
Documenter en amont : qui décide, à quel moment, sur quels critères

Certains outils proposent des modes “arrêt anticipé” conçus pour ça (ils corrigent automatiquement le risque), mais ce n’est pas l’option par défaut. À utiliser uniquement si vous savez ce que vous faites.

Significatif ≠ rentable

Un test peut être statistiquement valide mais sans valeur business. Exemple : un test avec 500 000 visiteurs détecte un écart de +0,2 % de conversion. Statistiquement, c’est un vrai écart, pas du hasard. Côté business, +0,2 % sur 500 000 visiteurs représente peut-être 1 000 € / mois — à comparer au coût d’implémentation durable de la variante B. Si ça coûte 5 jours de dev, le ROI est probablement négatif.

À l’inverse, un test qui montre un écart de +30 % mais ne franchit pas le seuil de fiabilité (parce que pas assez de visiteurs) peut justifier de prolonger le test plutôt que d’abandonner.

Le bon réflexe en deux temps

Significatif côté statistique ? L’écart observé sort du bruit normal, on peut lui faire confiance
Significatif côté business ? L’effet observé, traduit en €, justifie le coût d’implémentation

Les deux conditions sont nécessaires. Un test peut “gagner” sur le 1 sans valoir le 2, ou l’inverse.

Et si je n’ai pas assez de trafic ?

C’est le cas le plus fréquent sur les PME. Trois options :

Tester des changements plus impactants : un nouveau parcours complet plutôt qu’une couleur de bouton. Plus l’effet attendu est grand, moins il faut de visiteurs pour le détecter.
Accepter que certains tests ne sont pas mesurables et décider sur d’autres critères (UX, brand, simplicité d’usage). C’est plus honnête que de tirer des conclusions sur du bruit.
Tester sur un sous-segment qui a plus de volume (par exemple le mobile uniquement, ou les visiteurs Google Ads uniquement). Attention : la conclusion ne s’applique alors qu’à ce segment.

Les outils qui font les calculs à votre place

Outil	Type	Quand l’utiliser
Evan Miller’s calculator	Calculateur gratuit	Calcul rapide avant de lancer
Optimizely	Plateforme A/B testing complète	Setup pro avec gestion des arrêts anticipés
AB Tasty	Plateforme A/B testing FR	Idem, écosystème français
VWO	Plateforme A/B testing	Bonne option mid-market
Google Optimize	Gratuit (fermé en 2023)	N’est plus disponible

Aucun outil ne remplace les bons réflexes : calculer la taille avant, attendre la fin, juger l’écart en euros. La plateforme exécute, le décideur décide.

Articulation avec le reste

Cette méthodologie statistique s’applique à tous les A/B tests, mais elle prend un relief particulier sur les tests de bannière CMP : beaucoup de variantes “gagnantes” déclarées en quelques jours sont en réalité du bruit, et l’optimisation visible se dégrade dans les semaines qui suivent.

Sur l’audit tracking, les tests A/B mal menés sont un classique des trous trouvés en mission. Le sujet est traité plus largement dans la méthodologie d’audit, et l’arbitrage “tester ou décider sur autre chose” fait partie des recommandations d’un audit tracking complet.

En synthèse

L’A/B testing est un outil puissant quand la méthodologie est respectée, et un piège quand elle ne l’est pas. Trois réflexes suffisent à éliminer la majorité des fausses conclusions : calculer le nombre de visiteurs avant de lancer, attendre au moins deux cycles hebdomadaires, et juger le résultat en euros pas seulement en pourcentages. Sur les setups à faible trafic, accepter que certains tests sont impossibles à mener rigoureusement est plus utile que de tirer des conclusions sur du hasard.

Sources

Evan Miller — A/B Test Sample Size Calculator — référence gratuite pour calculer le nombre de visiteurs
Optimizely — Statistical significance in A/B testing — vulgarisation des concepts par l’éditeur
Ron Kohavi — Trustworthy Online Controlled Experiments — livre de référence sur l’expérimentation (Microsoft / Airbnb)