Ciencia de Datos9 min de lectura

Cómo leer un gráfico de frecuencias sin engañarte a ti mismo

Una guía práctica para el gráfico peor leído del análisis de lotería. Cuatro reglas para interpretar datos de frecuencia con honestidad, con ejemplos de qué aspecto tiene una mala lectura.

Equipo LottoWise

Los gráficos de frecuencia son populares porque se leen de un vistazo. Un gráfico de barras con números en un eje y recuentos en el otro cuenta una historia rápida: algunos números parecen grandes, otros pequeños, algunos destacan, otros se desvanecen.

El problema es que la historia que te cuenta tu vista suele ser errónea. La percepción visual humana es muy buena detectando patrones, incluidos los que no existen. Si lees un gráfico de frecuencias como leerías un gráfico de ventas por región, llegarás a conclusiones que no se sostienen estadísticamente.

Este artículo es una guía práctica —cuatro reglas y ejemplos— para leer un gráfico de frecuencias sin engañarte a ti mismo.

Regla 1: lee siempre contra una línea base

El error más común al leer un gráfico de frecuencias es hacerlo sin una línea de referencia que muestre "cómo se vería la uniformidad".

Imagina una lotería 6/49 en 500 sorteos. El recuento esperado para cada número es 500 × 6/49 ≈ 61. Un gráfico que muestre los recuentos reales sin una línea en 61 invitará a tu vista a interpretar cada barra como señal: las altas son calientes, las bajas son frías.

Ahora traza la línea en 61. De pronto el panorama cambia. La mayoría de las barras están cerca de 61. Algunas por encima, otras por debajo. La varianza tiene una distribución, no un patrón. Las barras que parecían altas suelen estar una o dos desviaciones estándar por encima de 61: cómodamente dentro de la variación aleatoria.

Un gráfico de frecuencias sin línea base arrastra tu vista hacia una conclusión que los datos no respaldan. Si una plataforma te muestra un gráfico de frecuencias sin línea base, o lo desconoce o se está aprovechando de ello.

Cómo son las buenas líneas base

Una línea base no es solo una línea. La versión útil muestra:

  • El recuento esperado (la media de una distribución uniforme sobre esta ventana).
  • Una banda sombreada de una desviación estándar por encima y por debajo: alrededor del 68 % de los números debería caer aquí solo por azar.
  • Una segunda banda más clara para dos desviaciones estándar: alrededor del 95 % de los números debería caer dentro de este rango.

Una vez tienes estas bandas, la pregunta cambia de "¿qué número es más alto?" a "¿cuántos números están fuera de la banda de dos sigmas?". La respuesta, para cualquier lotería reputada, suele ser: muy pocos, y los que están fuera cambian de ventana a ventana.

Regla 2: lee la ventana

Un gráfico de frecuencias es siempre un gráfico sobre una ventana específica de sorteos. La ventana suele ser el parámetro más importante, y las plataformas que te dejan caer silenciosamente en una ventana por defecto esconden un contexto fundamental.

Para una lotería 6/49, la historia cambia drásticamente según la ventana:

  • En 20 sorteos: La varianza es enorme. Los números que aparecen 4 veces parecen calientes, los que aparecen 0 veces parecen fríos, y ninguno de los dos te dice nada real. La desviación estándar del recuento de un solo número es de alrededor de 1,5, y el rango plausible va de 0 a 5.
  • En 100 sorteos: La varianza es menor pero sigue siendo considerable. El recuento esperado es ~12, con una desviación estándar de unos 3,3. Los números pueden oscilar 6 o más solo por aleatoriedad.
  • En 500 sorteos: El recuento esperado es ~61, con una desviación estándar de unos 7,4. La varianza es más pequeña en relación con lo esperado, pero los números que parecen más extremos suelen estar aún en el borde de un rango normal.
  • En 5.000 sorteos: El recuento esperado es ~612, con una desviación estándar de unos 23. La varianza relativa se ha reducido a cerca del 4 % del esperado, y esta es la primera ventana donde un sesgo real empezaría a verse con claridad.

La implicación: una plataforma que te muestra un gráfico de frecuencias sobre 20 sorteos te está mostrando básicamente ruido, dispuesto con habilidad. Una que te muestra un gráfico de 500 sorteos te muestra la distribución de la varianza aleatoria. Una de 5.000 sorteos se acerca al límite de la información útil a partir de datos históricos.

Ninguna de estas ventanas justifica el consejo de "juega estos números". Pero sí te dicen cosas distintas, y saber qué ventana estás viendo es crítico.

Regla 3: lee varias ventanas

Un único gráfico de frecuencias te dice qué pasó en una ventana. Varios gráficos de frecuencias —misma lotería, distintas ventanas— te dicen qué es persistente y qué es ruido.

Una prueba útil: toma los 10 números más frecuentes de los últimos 50 sorteos. Ahora mira el top 10 de los 50 sorteos anteriores. ¿Son los mismos?

Para una lotería aleatoria, la respuesta será que no. Normalmente verás 1 o 2 coincidencias, que es justo lo que predice el azar. Si los números calientes fueran reales, verías 6 o 7 coincidencias. No las verás.

Ejecutar esta prueba sobre múltiples ventanas no solapadas te da una sensación visceral de la rapidez con la que se disuelven los patrones aparentes. Los números "calientes" de marzo casi nunca son los "calientes" de abril, y el hecho de que no lo sean es la evidencia práctica más fuerte que encontrarás de que el marco está roto.

Las plataformas de análisis serias facilitan esto: te dejan deslizar la ventana, compararlas y ver la persistencia (o ausencia) de patrones directamente. Las plataformas que te encierran en una única ventana impiden la comparación que dejaría al descubierto la debilidad del marco.

Regla 4: lee la varianza, no los extremos

La forma natural de leer un gráfico de barras es mirar los extremos. ¿Qué barra es la más alta? ¿Cuál es la más baja? Este instinto suele estar equivocado en los gráficos de frecuencia.

Los extremos son la parte menos informativa. Por definición, son las partes de la distribución más afectadas por la variación aleatoria. La barra del número más alto te dice casi nada sobre la lotería: es una extracción más de una distribución que, por naturaleza, tiene barras altas y bajas.

La magnitud interesante es la dispersión del conjunto de la distribución. ¿Cómo de desigual es en conjunto? ¿Más desigual de lo que predeciría una distribución uniforme? (Casi nunca.) ¿Su dispersión coincide con la que predeciría una distribución binomial? (Casi siempre.)

Un gráfico que muestre el histograma de recuentos sobre todos los números —con recuentos en un eje y "¿cuántos números tuvieron este recuento?" en el otro— es más informativo que el gráfico de frecuencia en bruto. La forma del histograma te dice si la varianza coincide con las expectativas aleatorias. Si la forma es indistinguible de una binomial, no hay señal. En la práctica, casi siempre es indistinguible.

Ejemplos de mala lectura

Para concretar estas reglas, aquí van cuatro cosas que la gente suele concluir de los gráficos de frecuencia y que no se sostienen:

"El número 27 está caliente: ha salido 8 veces en los últimos 20 sorteos." En una lotería 6/49, el recuento esperado en 20 sorteos es 2,4, con una desviación estándar de ~1,5. Un 8 está a unas 3,7 desviaciones estándar por encima de lo esperado. Raro, pero no imposible, y con 49 números en juego esperarías que uno o dos alcanzaran un extremo así por puro azar en cualquier ventana de 20 sorteos.

"El número 13 está debido: no ha salido en 30 sorteos." La probabilidad de que un número concreto no aparezca en 30 sorteos 6/49 consecutivos es de aproximadamente (1 - 6/49)^30 ≈ 2,1 %. Poco común, pero con 49 números en juego, más o menos uno de ellos está siempre en medio de una sequía de 30 sorteos. No está "debido". Simplemente está ahora en el lado bajo de la varianza, y tiene exactamente la misma probabilidad de aparecer en el próximo sorteo que cualquier otro número.

"Los números bajos (1–10) han estado fríos últimamente." Hay 10 números en ese rango, y la varianza de su recuento combinado en una ventana se agrupará alrededor del esperado con una dispersión conocida. Mirar el recuento combinado hace que la varianza se encoja más rápido que los recuentos de un solo número, de modo que "frío" en este marco suele significar "dentro de 1–2 sigmas del valor esperado para un grupo de este tamaño", lo cual no es evidencia de nada.

"Los números consecutivos no han salido últimamente." En cualquier ventana corta, la frecuencia de cualquier patrón específico (números consecutivos, tríos seguidos, balance par/impar) fluctúa. La probabilidad de una pareja consecutiva en un sorteo 6/49 es de alrededor del 49 %, así que las parejas consecutivas deberían aparecer en aproximadamente la mitad de los sorteos. Cualquier variación a más corto plazo es ruido.

Cómo es un gráfico de frecuencias bien diseñado

Un gráfico de frecuencias que respeta estas reglas normalmente tiene:

  • Un indicador claro de la ventana (por ejemplo, "últimos 500 sorteos").
  • Una línea de referencia para el recuento esperado bajo una distribución uniforme.
  • Bandas sombreadas para los rangos de 1 sigma y 2 sigmas.
  • Un gráfico secundario (o conmutador) que muestre la distribución de recuentos como histograma.
  • Controles para cambiar la ventana y comparar entre ventanas.
  • Un encuadre explícito sobre lo que el gráfico sí y no te dice.

Cuando veas un gráfico de frecuencias, comprueba todo esto. Cada elemento ausente es señal de que el gráfico está diseñado para impresionar, no para informar.

Conclusión

Leer un gráfico de frecuencias sin engañarte a ti mismo es una habilidad que se aprende. El instinto es mirar las barras y encontrar significado en las que sobresalen; la disciplina es comparar con lo que realmente predice la aleatoriedad y notar que la mayor parte de la señal aparente es solo la irregularidad natural de un proceso aleatorio en una ventana finita.

Los datos de frecuencia son genuinamente útiles para entender cómo se comportan las loterías. Son inútiles para elegir números. Estas dos afirmaciones no se contradicen: son dos caras de lo que el gráfico realmente es, una vez le quitas la mitología.

La próxima vez que veas un gráfico de frecuencias, aplica las cuatro reglas: busca una línea base, comprueba la ventana, compara con otra ventana, lee la varianza y no los extremos. Verás cómo muchos gráficos dejan de decirte cosas y unos pocos empiezan a decirte algo más interesante que lo que prometía el titular.