Comprendre les fréquences des numéros de loterie

Ouvrez n'importe quel site d'analyse de loterie et l'une des premières choses que vous verrez sera un graphique de fréquence. Habituellement, c'est un diagramme à barres avec un numéro sur chaque axe et une hauteur qui suit le nombre de fois où ce numéro a été tiré. Parfois, il y a un codage couleur — numéros chauds en rouge, numéros froids en bleu.

Les graphiques de fréquence sont populaires parce qu'ils sont immédiatement lisibles. Vous les regardez et avez l'impression d'avoir appris quelque chose. Souvent, c'est vrai. Tout aussi souvent, vous avez appris la mauvaise chose. Cet article explique comment les lire correctement.

Ce que mesure réellement un graphique de fréquence

Un graphique de fréquence de loterie répond à une question précise : sur une fenêtre de tirages donnée, à quelle fréquence chaque numéro est-il apparu ?

C'est tout. Pas « quels numéros sont chanceux ». Pas « quels numéros sont dus ». Pas « quels numéros jouer ensuite ». Juste un compte brut, sur une fenêtre définie, pour une loterie précise.

Cela paraît évident, mais la distinction importe parce que presque toutes les confusions sur les graphiques de fréquence viennent du fait de traiter ce compte comme autre chose qu'un compte.

Les trois variables qu'il faut connaître

Avant de pouvoir lire honnêtement un graphique de fréquence, vous avez besoin de trois informations. Si le graphique ne les affiche pas, méfiez-vous.

La loterie. Les fréquences n'ont de sens qu'au sein d'une seule loterie. Powerball (5/69 + 1/26) et EuroMillions (5/50 + 2/12) ont des espaces d'échantillonnage complètement différents ; vous ne pouvez pas comparer directement leurs graphiques de fréquence.

La fenêtre. Combien de tirages le graphique couvre-t-il ? Les 20 derniers ? Les 500 derniers ? Les cinq dernières années ? Un graphique sur 20 tirages vous montre du bruit à court terme. Un graphique sur 5 000 tirages vous montre quelque chose de proche de la distribution sous-jacente. Ce sont des choses différentes. Une plateforme qui ne divulgue pas sa fenêtre cache la variable la plus importante.

La référence. À quoi ressembleraient les fréquences si la loterie était parfaitement uniforme ? Pour une 6/49 sur 500 tirages, chaque numéro devrait apparaître environ 500 × 6/49 ≈ 61 fois. Chaque graphique devrait afficher cette référence sous forme de ligne ou de bande ombrée. Sans elle, la variance naturelle paraît spectaculaire ; avec elle, elle ressemble généralement à du bruit.

Si vous voyez un graphique de fréquence sans ces trois éléments, fermez-le. C'est de la décoration, pas de l'information — notre guide pour lire les graphiques de fréquence sans se tromper soi-même détaille la discipline complète.

Ce que « chaud » et « froid » veulent vraiment dire

La manière la plus courante de mal utiliser les graphiques de fréquence est le cadrage chaud/froid. Les numéros au-dessus de la référence sont « chauds » ; ceux en dessous sont « froids ». Certaines plateformes en tirent des conseils — jouez les chauds parce qu'ils tournent bien, ou jouez les froids parce qu'ils sont « dus ».

Les deux extrapolations sont fausses, pour la même raison : la variance que vous voyez est presque certainement du bruit.

Considérez une loterie 6/49 où la fréquence attendue de chaque numéro sur 500 tirages est 61. La théorie statistique dit que le compte réel d'un numéro donné tombera dans une plage autour de 61, dont la largeur est déterminée par l'écart-type d'une distribution binomiale. Ici, l'écart-type est d'environ 7,4. Cela signifie qu'environ 95 % des numéros auront des comptes compris entre 46 et 76 — par pure variation aléatoire.

Si vous voyez un numéro avec un compte de 73, il n'est pas « en forme ». Il se trouve bien à l'intérieur de la plage normale de la variance aléatoire. Il en va de même pour un numéro avec un compte de 49 — il n'est pas « froid », il est simplement légèrement sous sa valeur attendue, dans une variation statistique normale.

La manière technique de le dire : les fréquences observées qui tombent à moins de deux écarts-types de la valeur attendue ne fournissent aucune preuve de non-uniformité. La plupart des schémas chaud/froid que les gens voient sont exactement cela.

Quand un graphique de fréquence pourrait-il réellement dire quelque chose ?

Il existe un ensemble restreint de cas où les données de fréquence pourraient indiquer un effet réel :

Fenêtres très longues. Sur 5 000 ou 10 000 tirages, la variance naturelle se réduit relativement à la valeur attendue, et un biais réel (s'il existait) commencerait à apparaître. Pour la plupart des loteries, cela représente des décennies de données, et la plupart des loteries ont été rigoureusement auditées sur ces horizons. La réponse est presque toujours : pas de biais réel.

Valeurs aberrantes extrêmes. Si le compte d'un numéro tombe à plus de cinq ou six écarts-types de l'attendu, cela mérite enquête. Cela ne se produit presque jamais dans les loteries réputées. Quand cela arrive, le premier suspect est une erreur de collecte de données, pas la physique de la loterie.

Comparaisons inter-loteries avec méthodologie cohérente. C'est académique plutôt qu'actionnable, mais il est possible d'étudier de nombreuses loteries et de chercher des déviations systématiques. Les études évaluées par les pairs des grandes loteries trouvent généralement ce à quoi on s'attend : les tirages sont statistiquement indistinguables de l'aléa.

Un guide de lecture pratique

Avec tout cela en tête, voici comment utiliser réellement un graphique de fréquence sans se tromper soi-même :

Confirmez les trois variables. Loterie, fenêtre, référence. Si l'une manque, arrêtez-vous.
Regardez l'étalement, pas les extrêmes. La question intéressante n'est pas « quel numéro est le plus haut ? » — c'est « quel est l'étalement global ? ». Comparez à l'étalement attendu pour une distribution uniforme.
Supposez par défaut que la variance est du bruit. La charge de la preuve repose sur la déviation, pas sur l'uniformité. Si vous ne pouvez pas expliquer une déviation avec plusieurs écarts-types de données, c'est du bruit.
Regardez plusieurs fenêtres. Les numéros « chauds » d'une fenêtre sont rarement chauds dans la suivante. Si la chaleur ne persiste pas, elle n'était pas réelle.
Ne choisissez pas de numéros à partir de là. C'est la ligne rouge. Les graphiques de fréquence décrivent ce qui s'est passé. Ils ne prédisent pas ce qui se passera.

Ce que font les plateformes d'analyse honnêtes

Une plateforme qui prend les données de fréquence au sérieux :

Affichera explicitement la référence. Généralement sous forme de bande ombrée pour un et deux écarts-types.
Vous laissera changer la fenêtre. Des fenêtres différentes répondent à des questions différentes. Une plateforme qui le cache simplifie à outrance.
Refusera de classer les numéros comme « meilleurs choix ». Aucune plateforme honnête ne classe les numéros par probabilité de gain implicite, parce qu'il n'y a pas de probabilité de gain implicite.
Expliquera les mathématiques. Vous devriez pouvoir trouver une page qui vous explique comment la référence a été calculée et pourquoi les bandes de variance sont ce qu'elles sont.

Les graphiques de fréquence comme pédagogie des probabilités

Utilisé correctement, un graphique de fréquence est un magnifique outil pédagogique. Il montre la variance naturelle d'un processus aléatoire d'une manière immédiatement visible et qui ne colle presque jamais aux intuitions des gens. La plupart s'attendent à ce que les distributions uniformes paraissent uniformes ; elles ne le sont pas. Elles paraissent irrégulières. Apprendre à voir cette irrégularité comme attendue, plutôt que comme un signal, est le début de la culture probabiliste.

C'est la meilleure chose que peuvent faire les graphiques de fréquence : non pas choisir des numéros, mais entraîner votre intuition à ce à quoi ressemble vraiment le hasard.

En résumé

Un graphique de fréquence de loterie est un compte sur une fenêtre, comparé à une référence attendue. Il est utile pour comprendre à quel point les tirages aléatoires sont bruyants, et pour dissiper l'intuition que de petites variances veulent dire quelque chose.

Il n'est pas utile pour choisir des numéros. Il ne peut pas l'être. Les tirages qui ont produit le graphique étaient indépendants les uns des autres, ce qui signifie que le graphique n'a aucun pouvoir prédictif sur le prochain tirage. Ce n'est pas une limitation du graphique — c'est une propriété du processus sous-jacent.

Si regarder des données de fréquence vous plaît, essayez par vous-même et regardez-les pour ce qu'elles sont : une fenêtre sur un processus aléatoire. Dès que vous commencez à y choisir des numéros, le graphique cesse d'être de l'analyse et devient une superstition à laquelle on a ajouté un graphique.