Comment lancer un A/B test : de l'hypothèse à la décision

Les 7 étapes concrètes pour lancer un A/B test utile : formulation d'hypothèse, choix de l'outil, configuration, mesure, documentation. Sans formules.

L’A/B testing intimide souvent parce qu’on associe le sujet à la statistique. Mais en pratique, lancer un test utile, c’est d’abord un travail de méthodo et d’outils — la partie stats arrive seulement à l’analyse. Cet article couvre les sept étapes concrètes pour passer d’une intuition (“on devrait peut-être changer le CTA”) à un test exploitable, jusqu’à la décision finale.

Pour la partie “comment interpréter les résultats” (taille d’échantillon, durée, peeking), c’est traité dans l’article complémentaire sur la méthodologie A/B testing.

L’essentiel
  • Un A/B test utile commence par une hypothèse formulée, pas par “tester un bouton”.
  • Ne tester qu’une chose à la fois par variante — sinon impossible de savoir d’où vient le résultat.
  • Choisir l’outil en fonction du volume et du budget : AB Tasty / Optimizely / VWO pour le pro, GTM + dataLayer pour le bricolage propre.
  • Documenter chaque test (même les perdants) dans un journal — la matière première de votre CRO.

Le pipeline complet

Etape 1HypotheseEtape 2MetriqueEtape 3VariantesEtape 4OutilEtape 5Config6+7Lancer +documenter

Étape 1 — Formuler une hypothèse testable

C’est l’étape la plus souvent ratée. Une bonne hypothèse n’est pas “on va tester un bouton vert” mais une affirmation falsifiable qui dit ce qu’on attend et pourquoi.

Le format d’une hypothèse utile

Si on change [élément X], alors [métrique Y] va [augmenter / diminuer] de [Z %], parce que [raison comportementale].

Exemple :

Si on remplace le CTA “Acheter” par “Ajouter au panier” sur la page produit, alors le taux de clic sur le CTA va augmenter de 15 %, parce que “Ajouter au panier” est moins engageant et lève la friction de la décision d’achat immédiate.

Cette formulation force à clarifier :

  • L’élément modifié (single change)
  • La métrique mesurée
  • L’effet attendu (sens et amplitude)
  • La logique comportementale derrière

Sans hypothèse, on lance des tests “au cas où” et on ne tire aucun apprentissage des résultats. Avec, même un test perdant produit un apprentissage.

Étape 2 — Identifier la métrique principale (et les garde-fous)

Une seule métrique principale par test. C’est celle qui décide du gagnant.

Choisir la bonne métrique

  • Pas trop éloignée du changement : tester le CTA d’une page produit avec comme métrique le revenu mensuel global = trop de bruit, trop indirect
  • Pas trop proche : tester un CTA en mesurant uniquement le clic = on peut “gagner” le clic mais perdre la conversion finale
  • Le bon équilibre : la métrique qui exprime l’objectif business du changement

Sur l’exemple CTA “Acheter” vs “Ajouter au panier”, la métrique principale serait le taux d’ajout au panier, pas le taux d’achat final (trop distant et influencé par trop d’autres facteurs).

Métriques garde-fous

À surveiller en parallèle pour détecter les régressions cachées :

  • Bounce rate : si la variante gagne en clics mais fait monter le bounce, c’est suspect
  • Revenu par session : la métrique anti-cannibalisation
  • Taux d’abandon panier : si le clic au panier monte mais l’abandon aussi, gain illusoire

Étape 3 — Concevoir les variantes (une seule variable à la fois)

Une règle simple : ne changer qu’une seule chose entre A et B. Sinon, impossible de savoir d’où vient l’effet observé.

Mauvais design :

  • A = bouton bleu “Acheter”
  • B = bouton vert “Ajouter au panier” + nouvelle police + nouveau wording sous le bouton

Bon design (test 1) :

  • A = bouton bleu “Acheter”
  • B = bouton bleu “Ajouter au panier”

Puis test 2 (séquentiel ou multi-bras) sur la couleur. Tester plusieurs variables à la fois est possible (tests multivariés), mais ça demande beaucoup plus de trafic et complique l’analyse — à réserver aux setups matures.

Pour les changements visuels lourds

Si le changement teste une refonte complète (nouvelle page produit, nouveau funnel checkout), on accepte que ce ne soit plus un “vrai” A/B test au sens scientifique — c’est un test produit, dont les apprentissages seront plus directionnels que causaux. À documenter comme tel.

Étape 4 — Choisir l’outil

Le choix dépend du volume du site, du niveau d’autonomie souhaité côté équipe, et du budget. Tour d’horizon :

OutilPour quiForcesLimites
AB TastyMid-market FR, e-commerceÉditeur visuel, support FR, gestion des audiences fineTarif élevé (à partir de ~1k€ / mois)
OptimizelyGrands comptesStats Engine bayésien intégré, intégrations DAM, expérimentation server-sideTrès cher, courbe d’apprentissage
VWOPME et mid-marketBon rapport qualité-prix, heatmaps inclusesMoins puissant qu’Optimizely sur les segments avancés
ConvertPME tech-friendlyTarif raisonnable, code propre, support développeurMoins d’UX no-code pour le marketing
GTM + dataLayer customDébrouille techniqueGratuit, contrôle total, intégration native GA4Calcul stats à faire à la main, pas d’UI éditeur, risque d’erreur
Google Optimize(fermé en 2023)N’est plus disponible

Pour un site qui démarre l’A/B testing, VWO ou Convert sont souvent le bon compromis. Pour les setups avec déjà une équipe data et un volume conséquent, AB Tasty (FR) ou Optimizely apportent les fonctionnalités avancées qui justifient le coût. Pour les setups très contraints, le bricolage GTM + GA4 est faisable mais demande de la rigueur sur le calcul de significativité (cf. l’article méthodologie A/B testing).

Étape 5 — Configurer le test proprement

Une fois l’outil choisi, six points à régler avec attention :

Audience cible

À quels visiteurs le test s’applique ? Tous ? Uniquement mobile ? Uniquement les nouveaux visiteurs ? Uniquement les visiteurs Google Ads ? Plus l’audience est précise, plus les résultats sont actionnables — mais plus il faut de temps pour atteindre le volume nécessaire.

Allocation du trafic

50/50 par défaut. Certains setups testent à 90/10 (90 % sur le contrôle) pour minimiser le risque sur une variante non testée. C’est plus prudent mais ralentit la collecte.

Pages de déclenchement

Sur quelles URLs le test se déclenche ? Précis : une seule URL ? Plus large : tout le tunnel ? Plus l’audience pages est petite, plus le test est ciblé.

Exclusions

Souvent oubliées :

  • IPs internes (équipe, agence partenaire)
  • Bots et crawlers (filtre user-agent ou liste noire)
  • Visiteurs en debug mode
  • Audiences QA lors des tests internes

QA initiale

Avant de pousser en live, tester chaque variante manuellement sur tous les browsers principaux + mobile. Vérifier :

  • La variante s’affiche bien
  • Les événements de tracking partent dans GA4 / l’outil
  • Aucun message d’erreur en console
  • La performance n’est pas dégradée (CWV)

10 minutes de QA évitent une semaine de test invalide.

Durée et taille d’échantillon

À calculer avant de lancer via Evan Miller’s calculator. Minimum deux cycles hebdomadaires (14 jours). Détail complet dans l’article méthodologie A/B testing.

Étape 6 — Lancer, surveiller (sans peeker), conclure

Pendant la durée du test :

  • J0 → J2 : QA quotidienne pour confirmer que tout tourne (volume conforme, pas de bug visible)
  • J3 → fin : ne pas regarder les résultats pour décider. On laisse le test atteindre la taille d’échantillon prévue.

À la fin :

  • Comparer la métrique principale entre A et B
  • Vérifier les métriques garde-fous
  • Calculer la significativité (l’outil le fait automatiquement, ou via calculateur si setup GTM custom)
  • Décider : gagnant, perdant, ou inconclusive (pas assez de signal, garder A par défaut)

Étape 7 — Documenter le résultat (même perdant)

L’erreur la plus coûteuse en CRO : ne pas documenter les tests perdants. On finit par retester les mêmes choses 6 mois plus tard. Un journal de tests bien tenu vaut de l’or.

Format minimum pour chaque test

ChampExemple
Date2026-04-15 → 2026-04-29
HypothèseSi on remplace “Acheter” par “Ajouter au panier”…
Variante A vs BCapture d’écran A et B
AudienceMobile uniquement, FR
Volume8 200 visiteurs / variante
Métrique principaleTaux d’ajout au panier
RésultatA : 12,3 % / B : 13,8 % / +12 % relatif
SignificativitéOui (p < 0,05)
DécisionImplémenter B en prod
ApprentissageWording moins engageant gagne sur ce type de produit

Un Notion / Confluence / Google Sheets bien structuré suffit. La discipline de documentation est probablement la première variable qui sépare un programme CRO mature d’un programme amateur.

Articulation avec le reste

Lancer un A/B test propre, c’est une chose. L’interpréter correctement, c’en est une autre — c’est le sujet de l’article méthodologie A/B testing (taille d’échantillon, peeking, durée). Pour les A/B tests appliqués spécifiquement aux bannières de consentement, voir A/B testing du banner CMP.

Sur un audit complet, je vérifie systématiquement si le programme A/B testing du client tourne sur des hypothèses claires, un journal documenté, et des tailles d’échantillon réalistes — c’est l’un des marqueurs de maturité analytics d’une équipe. Détail dans la méthodologie d’audit ou via un audit tracking complet.

En synthèse

Sept étapes, deux disciplines : la rigueur en amont (hypothèse, métrique unique, variantes minimalistes) et la discipline en aval (pas de peeking, documentation systématique). Le reste — choix de l’outil, configuration — est de la mécanique. La maturité d’un programme CRO ne se mesure pas au nombre de tests lancés, mais à la qualité des apprentissages cumulés sur 6 à 12 mois.

Sources

Besoin d'aide sur ce sujet ?

Je peux vous accompagner sur la mise en place ou l'optimisation de votre tracking.

Sans surprise : forfaits affichés en clair, devis validé avant kick-off, pas d'avenant.