Comment lire un graphique de fréquence sans se tromper soi-même

Les graphiques de fréquence sont populaires parce qu'ils sont immédiatement lisibles. Un diagramme à barres avec des numéros sur un axe et des comptes sur l'autre raconte une histoire vite — certains numéros paraissent gros, d'autres petits, certains sautent aux yeux, d'autres s'effacent.

Le problème, c'est que l'histoire que vos yeux vous racontent est généralement fausse. La perception visuelle humaine est très douée pour détecter des schémas, y compris des schémas qui n'existent pas. Si vous lisez un graphique de fréquence comme vous liriez un graphique des ventes par région, vous tirerez des conclusions qui ne tiennent pas statistiquement.

Cet article est un guide pratique — quatre règles, plus des exemples — pour lire un graphique de fréquence sans se tromper soi-même.

Règle 1 : Toujours lire face à une référence

L'erreur la plus courante dans la lecture d'un graphique de fréquence est de le lire sans ligne de référence pour « ce à quoi ressemblerait l'uniforme ».

Imaginez une loterie 6/49 sur 500 tirages. Le compte attendu pour chaque numéro est 500 × 6/49 ≈ 61. Un graphique montrant les comptes réels sans ligne à 61 invitera votre œil à interpréter chaque barre comme un signal : les grandes sont chaudes, les petites sont froides.

Tracez maintenant la ligne à 61. L'image change soudain. La plupart des barres sont proches de 61. Quelques-unes sont au-dessus, quelques-unes en dessous. La variance a une distribution, pas un schéma. Les barres qui paraissaient grandes se trouvent généralement à un ou deux écarts-types au-dessus de 61 — bien dans les limites de la variation aléatoire.

Un graphique de fréquence sans référence attire votre œil vers une conclusion que les données ne soutiennent pas. Si une plateforme vous montre un graphique de fréquence sans référence, soit elle l'ignore, soit elle l'exploite.

À quoi ressemble une bonne référence

Une référence n'est pas qu'une simple ligne. La version utile montre :

Le compte attendu (la moyenne d'une distribution uniforme sur cette fenêtre).
Une bande ombrée pour un écart-type au-dessus et en dessous — environ 68 % des numéros devraient y tomber par pur hasard.
Une seconde bande, plus claire, pour deux écarts-types — environ 95 % des numéros devraient tomber dans cette plage.

Une fois ces bandes en place, la question passe de « quel numéro est le plus haut ? » à « combien de numéros sont hors de la bande à deux sigmas ? ». La réponse, pour toute loterie réputée, est généralement très peu — et ceux qui en sortent changent d'une fenêtre à l'autre.

Règle 2 : Lire la fenêtre

Un graphique de fréquence est toujours un graphique sur une fenêtre spécifique de tirages. La fenêtre est généralement le paramètre le plus important, et les plateformes qui vous laissent passer silencieusement sur une fenêtre par défaut cachent un contexte essentiel.

Pour une loterie 6/49, l'histoire change radicalement selon la fenêtre :

Sur 20 tirages : La variance est énorme. Les numéros qui apparaissent 4 fois paraissent chauds, ceux qui apparaissent 0 fois paraissent froids, et ni l'un ni l'autre ne vous dit quoi que ce soit de réel. L'écart-type du compte d'un numéro est d'environ 1,5, et la plage plausible est à peu près 0–5.
Sur 100 tirages : La variance est plus petite mais reste substantielle. Compte attendu ~12, écart-type ~3,3. Les numéros peuvent osciller de 6 ou plus par pur hasard.
Sur 500 tirages : Compte attendu ~61, écart-type ~7,4. La variance est plus petite relativement à l'attendu, mais les numéros qui paraissent les plus extrêmes restent généralement à la limite d'une plage normale.
Sur 5 000 tirages : Compte attendu ~612, écart-type ~23. La variance relative s'est réduite à environ 4 % de l'attendu, et c'est la première fenêtre où un biais réel commencerait à se voir clairement.

L'implication : une plateforme qui vous montre un graphique de fréquence sur 20 tirages vous montre essentiellement du bruit, joliment arrangé. Une plateforme qui vous montre un graphique sur 500 tirages vous montre la distribution de la variance aléatoire. Une plateforme qui vous montre un graphique sur 5 000 tirages commence à approcher la limite des informations utiles tirables des données historiques.

Aucune de ces fenêtres ne justifie un conseil « jouez ces numéros ». Mais elles disent des choses différentes, et savoir quelle fenêtre vous regardez est essentiel.

Règle 3 : Lire plusieurs fenêtres

Un seul graphique de fréquence vous dit ce qui s'est passé dans une fenêtre. Plusieurs graphiques — même loterie, fenêtres différentes — vous disent ce qui persiste et ce qui est du bruit.

Un test utile : prenez les 10 numéros les plus fréquents des 50 derniers tirages. Puis regardez le top 10 des 50 tirages précédents. Sont-ce les mêmes ?

Pour une loterie aléatoire, la réponse sera non. Vous verrez généralement 1 à 2 chevauchements, ce qui correspond exactement à ce que prédit le hasard. Si les numéros chauds étaient réels, vous verriez 6 à 7 chevauchements. Vous ne les verrez pas.

Répéter ce test sur plusieurs fenêtres non chevauchantes donne un sens viscéral de la vitesse à laquelle les schémas apparents se dissolvent. Les numéros « chauds » de mars sont presque jamais les numéros « chauds » d'avril, et ce constat constitue la preuve pratique la plus forte que vous verrez jamais que ce cadre est défectueux.

Les plateformes d'analyse sérieuses facilitent cela — elles vous laissent glisser la fenêtre, comparer des fenêtres et voir directement la persistance (ou l'absence) des schémas. Les plateformes qui vous enferment dans une seule fenêtre empêchent la comparaison qui exposerait la faiblesse du cadre.

Règle 4 : Lire la variance, pas les extrêmes

La manière naturelle de lire un diagramme à barres est de regarder les extrêmes. Quelle barre est la plus haute ? Laquelle la plus basse ? Cet instinct est presque toujours faux pour les graphiques de fréquence.

Les extrêmes sont la partie la moins informative. Par définition, ce sont les parties de la distribution les plus affectées par la variation aléatoire. La barre du numéro le plus haut ne vous dit presque rien sur la loterie — c'est un tirage parmi d'autres d'une distribution qui contient naturellement des barres hautes et basses.

La quantité intéressante, c'est l'étalement de la distribution entière. À quel point est-elle globalement irrégulière ? L'est-elle plus qu'une distribution uniforme ne le prédirait ? (Presque jamais.) L'étalement correspond-il à ce que prédirait une distribution binomiale ? (Presque toujours.)

Un graphique qui vous montre l'histogramme des comptes sur tous les numéros — avec les comptes sur un axe et « combien de numéros ont eu ce compte ? » sur l'autre — est plus informatif que le graphique de fréquence brut. La forme de l'histogramme vous dit si la variance correspond aux attentes aléatoires. Si la forme du graphique est indistinguable d'une binomiale, il n'y a pas de signal. En pratique, elle l'est presque toujours.

Exemples de mauvaise lecture

Pour rendre ces règles concrètes, voici quatre choses que les gens concluent souvent des graphiques de fréquence et qui ne tiennent pas :

« Le numéro 27 est chaud — il est sorti 8 fois sur les 20 derniers tirages. » Dans une loterie 6/49, le compte attendu sur 20 tirages est 2,4, avec un écart-type d'environ 1,5. 8 se situe à environ 3,7 écarts-types au-dessus de l'attendu. Rare, mais pas impossible — et avec 49 numéros en jeu, il faut s'attendre à ce qu'un ou deux atteignent un tel extrême par pur hasard sur toute fenêtre de 20 tirages.

« Le numéro 13 est dû — il n'est pas sorti depuis 30 tirages. » La probabilité qu'un numéro donné n'apparaisse pas dans 30 tirages 6/49 consécutifs est d'environ (1 − 6/49)^30 ≈ 2,1 %. Peu fréquent, mais avec 49 numéros en jeu, il y en a toujours à peu près un en pleine sécheresse de 30 tirages. Il n'est pas « dû ». Il est simplement actuellement du côté bas de la variance, et a exactement la même probabilité d'apparaître au prochain tirage que tout autre numéro.

« Les petits numéros (1–10) ont été froids récemment. » Cette plage contient 10 numéros, et la variance de leur compte combiné sur une fenêtre se concentre autour de l'attendu avec un étalement connu. Regarder le compte combiné fait rétrécir la variance plus vite que pour des numéros individuels, si bien que « froid » dans ce cadre signifie généralement « à 1–2 sigmas de l'attendu pour un groupe de cette taille », ce qui ne prouve rien.

« Les numéros consécutifs ne sont pas sortis récemment. » Sur toute fenêtre courte, la fréquence d'un schéma spécifique (numéros consécutifs, suites de trois numéros, équilibre pair/impair) fluctuera. La probabilité d'une paire consécutive dans un tirage 6/49 est d'environ 49 %, donc les paires consécutives devraient apparaître dans environ la moitié de tous les tirages. Toute variation à plus court terme est du bruit.

À quoi ressemble un graphique de fréquence bien conçu

Un graphique de fréquence qui respecte ces règles présente généralement :

Une indication claire de la fenêtre (par ex. « 500 derniers tirages »).
Une ligne de référence pour le compte attendu sous distribution uniforme.
Des bandes ombrées pour les plages à 1-sigma et 2-sigmas.
Un graphique secondaire (ou une bascule) montrant la distribution des comptes sous forme d'histogramme.
Des contrôles pour changer la fenêtre et comparer plusieurs fenêtres.
Un cadrage explicite sur ce que le graphique dit et ne dit pas.

Quand vous rencontrez un graphique de fréquence dans la nature, vérifiez ces éléments. Chaque absence est un signe que le graphique est conçu pour impressionner plutôt que pour informer.

En résumé

Lire un graphique de fréquence sans se tromper soi-même est une compétence qui s'apprend. L'instinct est de regarder les barres et de chercher du sens dans celles qui ressortent ; la discipline est de comparer à ce que prédit réellement le hasard, et de remarquer que l'essentiel du signal apparent n'est que l'irrégularité naturelle d'un processus aléatoire sur une fenêtre finie.

Les données de fréquence sont véritablement utiles pour comprendre le comportement des loteries. Elles sont inutiles pour choisir des numéros. Ces deux affirmations ne se contredisent pas — ce sont deux facettes de ce qu'est réellement le graphique, une fois dépouillé de sa mythologie.

La prochaine fois que vous verrez un graphique de fréquence, déroulez les quatre règles : cherchez une référence, vérifiez la fenêtre, comparez à une autre fenêtre, lisez la variance, pas les extrêmes. Vous verrez beaucoup de graphiques cesser de vous dire des choses, et quelques-uns commencer à vous dire quelque chose de plus intéressant que ce que promettait le titre.