Méthodologie A/B test : échantillon, durée et erreurs à éviter
Combien de visiteurs il faut, combien de temps attendre, et pourquoi un 'gagnant' en 5 jours est souvent du hasard. Guide A/B testing accessible.
Lancer un A/B test, c’est facile. Le lire correctement, beaucoup moins. La plupart des équipes que j’accompagne pensent qu’un écart de 8 % entre deux variantes après 4 jours signifie que la variante B est meilleure. Souvent, c’est juste du hasard — et la décision business qui en découle est mauvaise.
Cet article couvre les trois questions à se poser avant de lancer un test, sans formules ni jargon. L’objectif : savoir si votre test est lisible avant d’en tirer des conclusions, pas devenir statisticien.
- Un test n’est utilisable que si on a calculé combien de visiteurs il faut avant de le lancer.
- Regarder les résultats avant la fin (le “peeking”) fait prendre de mauvaises décisions dans 1 cas sur 4.
- Un test doit durer au minimum une semaine complète, peu importe ce que disent les chiffres avant.
- Significatif côté statistique ≠ rentable côté business : il faut toujours valider les deux.
Pourquoi un test “gagnant” peut être du hasard
Imaginez qu’on vous demande de prouver qu’une pièce est truquée. Vous la lancez 10 fois et tombez sur 7 piles. Est-ce que la pièce est truquée ? Non — sur 10 lancers, tomber sur 7 piles arrive régulièrement par pur hasard, même avec une pièce parfaitement équilibrée.
C’est exactement la même mécanique pour un A/B test. Une variante A à 5 % de conversion et une variante B à 6 %, sur 200 visiteurs par variante, ce sont 10 vs 12 conversions. L’écart semble net. En réalité, sur de si petits volumes, cette différence peut survenir par pure variation aléatoire.
La bonne question n’est pas “B est-il supérieur à A dans ces chiffres ?” mais “B serait-il toujours supérieur à A si je relançais ce test 100 fois ?”. Et la réponse dépend de combien de visiteurs vous avez collectés.
Les 3 questions à se poser avant de lancer
1. Combien de visiteurs il faut
Plus votre taux de conversion de base est faible, plus il faut de visiteurs pour détecter un écart fiable. Pareil pour la taille de l’écart que vous voulez détecter : plus il est petit, plus il faut de visiteurs.
Le tableau ci-dessous donne des ordres de grandeur réalistes. Pour chaque combinaison “taux de base / gain visé”, c’est le nombre de visiteurs par variante (donc à doubler pour le test complet).
| Taux de conversion actuel | Gain à détecter | Visiteurs par variante |
|---|---|---|
| 1 % | +20 % (vers 1,2 %) | ~12 000 |
| 2 % | +20 % (vers 2,4 %) | ~5 800 |
| 5 % | +20 % (vers 6 %) | ~2 300 |
| 10 % | +20 % (vers 12 %) | ~1 050 |
| 30 % | +20 % (vers 36 %) | ~330 |
| 1 % | +10 % (vers 1,1 %) | ~46 000 |
| 5 % | +10 % (vers 5,5 %) | ~9 000 |
| 10 % | +10 % (vers 11 %) | ~4 200 |
Deux constats utiles :
- Une page de panier à 30 % de conversion peut tester avec quelques centaines de visiteurs par variante. C’est rapide.
- Une homepage e-commerce à 2 % de conversion a besoin de plusieurs milliers de visiteurs par variante. Sur un site à faible trafic, certains tests sont tout simplement impossibles à mener proprement.
Outil gratuit pour calculer : Evan Miller’s A/B Test Sample Size Calculator. Vous entrez votre taux de base et le gain visé, il vous donne le nombre exact.
2. Combien de temps il faut
Même avec le bon nombre de visiteurs, il faut au minimum une semaine complète. Pourquoi ? Parce que le comportement des visiteurs varie selon les jours :
- Lundi-vendredi : trafic pro, comportement d’achat différent
- Samedi-dimanche : trafic loisir, panier moyen souvent différent
- Comportement très différent selon que c’est le 1er ou le 28 du mois (paie)
Tester sur 3 jours sans inclure un week-end complet biaise les résultats. La règle simple : 2 cycles hebdomadaires complets, donc 14 jours minimum, est une bonne pratique pour les sites e-commerce.
3. À quel point l’écart vaut le coup
Avant de lancer, posez-vous la question : “si mon test détecte un gain de +5 %, est-ce que ça vaut le coût d’implémenter durablement la variante B ?”. Si la réponse est non, le test ne sert à rien — autant tester quelque chose de plus impactant.
Sur un site qui fait 100 000 € de revenu mensuel avec une conversion à 2 %, passer à 2,2 % (gain de +10 %) représente 10 000 € de revenu additionnel par mois. Ça change la donne. Mais sur un site qui fait 5 000 € / mois, le même gain représente 500 € — souvent moins que le coût d’implémentation.
Le piège du “gagnant à 5 jours”
C’est probablement l’erreur la plus répandue. Vous lancez votre test, vous regardez les chiffres quotidiennement, et vous décidez d’arrêter dès qu’un écart “significatif” apparaît. Mauvaise idée.
Pourquoi c’est dangereux
Quand on regarde les résultats tous les jours et qu’on s’arrête au premier seuil franchi, on multiplie mécaniquement le risque de se planter. Sur un test sans effet réel, le simple hasard fait que la variante B passe régulièrement au-dessus ou en-dessous de A — c’est le bruit normal. Si on s’arrête au “bon” moment, on déclare un faux gagnant.
Concrètement :
- Sans peeking : on a 5 % de risque de se tromper (le seuil standard)
- Avec peeking quotidien : ce risque monte à environ 25 %. Une décision sur quatre est fausse.
Le bon réflexe
- Fixer la durée et le nombre de visiteurs à l’avance, et ne pas y toucher
- Ne regarder les résultats qu’à la fin (ou seulement pour vérifier que le test tourne bien, pas pour prendre une décision)
- Documenter en amont : qui décide, à quel moment, sur quels critères
Certains outils proposent des modes “arrêt anticipé” conçus pour ça (ils corrigent automatiquement le risque), mais ce n’est pas l’option par défaut. À utiliser uniquement si vous savez ce que vous faites.
Significatif ≠ rentable
Un test peut être statistiquement valide mais sans valeur business. Exemple : un test avec 500 000 visiteurs détecte un écart de +0,2 % de conversion. Statistiquement, c’est un vrai écart, pas du hasard. Côté business, +0,2 % sur 500 000 visiteurs représente peut-être 1 000 € / mois — à comparer au coût d’implémentation durable de la variante B. Si ça coûte 5 jours de dev, le ROI est probablement négatif.
À l’inverse, un test qui montre un écart de +30 % mais ne franchit pas le seuil de fiabilité (parce que pas assez de visiteurs) peut justifier de prolonger le test plutôt que d’abandonner.
Le bon réflexe en deux temps
- Significatif côté statistique ? L’écart observé sort du bruit normal, on peut lui faire confiance
- Significatif côté business ? L’effet observé, traduit en €, justifie le coût d’implémentation
Les deux conditions sont nécessaires. Un test peut “gagner” sur le 1 sans valoir le 2, ou l’inverse.
Et si je n’ai pas assez de trafic ?
C’est le cas le plus fréquent sur les PME. Trois options :
- Tester des changements plus impactants : un nouveau parcours complet plutôt qu’une couleur de bouton. Plus l’effet attendu est grand, moins il faut de visiteurs pour le détecter.
- Accepter que certains tests ne sont pas mesurables et décider sur d’autres critères (UX, brand, simplicité d’usage). C’est plus honnête que de tirer des conclusions sur du bruit.
- Tester sur un sous-segment qui a plus de volume (par exemple le mobile uniquement, ou les visiteurs Google Ads uniquement). Attention : la conclusion ne s’applique alors qu’à ce segment.
Les outils qui font les calculs à votre place
| Outil | Type | Quand l’utiliser |
|---|---|---|
| Evan Miller’s calculator | Calculateur gratuit | Calcul rapide avant de lancer |
| Optimizely | Plateforme A/B testing complète | Setup pro avec gestion des arrêts anticipés |
| AB Tasty | Plateforme A/B testing FR | Idem, écosystème français |
| VWO | Plateforme A/B testing | Bonne option mid-market |
| Google Optimize | Gratuit (fermé en 2023) | N’est plus disponible |
Aucun outil ne remplace les bons réflexes : calculer la taille avant, attendre la fin, juger l’écart en euros. La plateforme exécute, le décideur décide.
Articulation avec le reste
Cette méthodologie statistique s’applique à tous les A/B tests, mais elle prend un relief particulier sur les tests de bannière CMP : beaucoup de variantes “gagnantes” déclarées en quelques jours sont en réalité du bruit, et l’optimisation visible se dégrade dans les semaines qui suivent.
Sur l’audit tracking, les tests A/B mal menés sont un classique des trous trouvés en mission. Le sujet est traité plus largement dans la méthodologie d’audit, et l’arbitrage “tester ou décider sur autre chose” fait partie des recommandations d’un audit tracking complet.
En synthèse
L’A/B testing est un outil puissant quand la méthodologie est respectée, et un piège quand elle ne l’est pas. Trois réflexes suffisent à éliminer la majorité des fausses conclusions : calculer le nombre de visiteurs avant de lancer, attendre au moins deux cycles hebdomadaires, et juger le résultat en euros pas seulement en pourcentages. Sur les setups à faible trafic, accepter que certains tests sont impossibles à mener rigoureusement est plus utile que de tirer des conclusions sur du hasard.
Sources
- Evan Miller — A/B Test Sample Size Calculator — référence gratuite pour calculer le nombre de visiteurs
- Optimizely — Statistical significance in A/B testing — vulgarisation des concepts par l’éditeur
- Ron Kohavi — Trustworthy Online Controlled Experiments — livre de référence sur l’expérimentation (Microsoft / Airbnb)