Como Ler um Gráfico de Frequência Sem se Enganar

Os gráficos de frequência são populares porque são imediatamente legíveis. Um gráfico de barras com números em um eixo e contagens no outro conta uma história rápida — algumas barras parecem grandes, outras pequenas, algumas se destacam, outras desaparecem.

O problema é que a história que seus olhos contam quase sempre está errada. A percepção visual humana é muito boa em detectar padrões, inclusive os que não existem. Se você ler um gráfico de frequência como leria um gráfico de vendas por região, vai chegar a conclusões que não se sustentam estatisticamente.

Este artigo é um guia prático — quatro regras e exemplos — para ler um gráfico de frequência sem se enganar.

Regra 1: Sempre leia contra uma linha de base

O erro mais comum ao ler um gráfico de frequência é fazê-lo sem uma linha de referência mostrando "como seria o uniforme".

Imagine uma loteria 6/49 em 500 sorteios. A contagem esperada para cada número é 500 × 6/49 ≈ 61. Um gráfico mostrando as contagens reais sem uma linha em 61 convida seu olho a interpretar cada barra como sinal: as altas são quentes, as baixas são frias.

Agora desenhe a linha em 61. De repente, a imagem muda. A maior parte das barras está próxima de 61. Algumas ficam acima, outras abaixo. A variância tem uma distribuição, não um padrão. As barras que pareciam altas costumam estar a um ou dois desvios-padrão acima de 61 — confortavelmente dentro da variação aleatória.

Um gráfico de frequência sem linha de base conduz o olhar a uma conclusão sem respaldo nos dados. Se uma plataforma exibe um gráfico de frequência sem base, ou ela não tem consciência disso ou está explorando esse efeito.

Como são boas linhas de base

Uma linha de base não é apenas uma única linha. A versão útil mostra:

A contagem esperada (a média da distribuição uniforme naquela janela).
Uma faixa sombreada para um desvio-padrão acima e abaixo — cerca de 68% dos números devem cair aí apenas por acaso.
Uma segunda faixa, mais clara, para dois desvios-padrão — cerca de 95% dos números devem cair dentro dessa banda.

Com essas faixas, a pergunta deixa de ser "qual número é o mais alto?" e passa a ser "quantos números estão fora da banda de dois sigmas?". A resposta, para qualquer loteria respeitável, costuma ser "muito poucos" — e os que saem daí mudam de uma janela para outra.

Regra 2: Leia a janela

Um gráfico de frequência é sempre um gráfico sobre uma janela específica de sorteios. A janela costuma ser o parâmetro mais importante, e plataformas que deixam você cair num default silencioso estão escondendo contexto importante.

Em uma loteria 6/49, a história muda dramaticamente com a janela:

Em 20 sorteios: a variância é enorme. Números que apareceram 4 vezes parecem quentes, números que saíram 0 vezes parecem frios, e nenhuma das duas leituras significa nada. O desvio-padrão da contagem de um número é cerca de 1,5, e a faixa plausível é aproximadamente 0–5.
Em 100 sorteios: a variância é menor, mas ainda substancial. Contagem esperada de ~12, desvio-padrão de cerca de 3,3. Números podem oscilar 6 ou mais apenas por aleatoriedade.
Em 500 sorteios: contagem esperada ~61, desvio-padrão ~7,4. A variância é menor em relação ao esperado, mas os números que parecem mais extremos ainda costumam estar apenas na borda da faixa normal.
Em 5.000 sorteios: contagem esperada ~612, desvio-padrão ~23. A variância relativa encolheu para cerca de 4% do esperado, e essa é a primeira janela em que um viés real começaria a aparecer com clareza.

A implicação: uma plataforma mostrando um gráfico de 20 sorteios está essencialmente exibindo ruído, com arranjo bonito. Uma plataforma mostrando 500 sorteios está exibindo a distribuição da variância aleatória. Uma plataforma mostrando 5.000 sorteios começa a se aproximar do limite de informação útil a partir de dados históricos.

Nenhuma dessas janelas justifica conselhos do tipo "jogue nestes números". Mas cada uma conta uma história diferente, e saber em qual janela você está olhando é crítico.

Regra 3: Leia várias janelas

Um único gráfico de frequência conta o que aconteceu em uma janela. Vários gráficos de frequência — mesma loteria, janelas diferentes — contam o que persiste e o que é ruído.

Um teste útil: pegue os 10 números mais frequentes dos últimos 50 sorteios. Agora olhe os 10 mais frequentes dos 50 sorteios anteriores. São os mesmos?

Em uma loteria aleatória, a resposta será não. Geralmente haverá 1–2 sobreposições, que é exatamente o que o acaso prevê. Se números quentes fossem reais, haveria 6–7 sobreposições. Não haverá.

Rodar esse teste em várias janelas não sobrepostas dá uma noção viceral da rapidez com que padrões aparentes se dissolvem. Os "quentes" de março quase nunca são os "quentes" de abril, e o fato de não serem é a evidência prática mais forte que você vai encontrar de que o framework está errado.

Plataformas sérias de análise tornam isso fácil — deixam você deslizar a janela, comparar janelas e ver diretamente a persistência (ou ausência) de padrões. Plataformas que te prendem em uma única janela estão bloqueando a comparação que expõe a fragilidade do framework.

Regra 4: Leia a variância, não os extremos

A forma natural de ler um gráfico de barras é olhar para os extremos. Qual barra é a mais alta? Qual é a mais baixa? Esse instinto é quase sempre errado em gráficos de frequência.

Os extremos são a parte menos informativa. Por definição, são as partes da distribuição mais afetadas pela variação aleatória. A barra do número mais alto não diz quase nada sobre a loteria — é uma amostra entre muitas de uma distribuição que naturalmente tem barras altas e baixas.

A quantidade interessante é a dispersão da distribuição inteira. Quão irregular é no conjunto? É mais irregular do que uma distribuição uniforme preveria? (Quase nunca.) A dispersão bate com o que uma distribuição binomial preveria? (Quase sempre.)

Um gráfico que mostra o histograma das contagens — com as contagens em um eixo e "quantos números tiveram essa contagem?" no outro — é mais informativo do que o gráfico de frequência bruto. A forma do histograma diz se a variância bate com as expectativas aleatórias. Se a forma for indistinguível de uma binomial, não há sinal. Na prática, quase sempre é indistinguível.

Exemplos de leitura ruim

Para concretizar as regras, aqui vão quatro conclusões comuns que as pessoas tiram de gráficos de frequência e que não se sustentam:

"O número 27 está quente — saiu 8 vezes nos últimos 20 sorteios." Em uma loteria 6/49, a contagem esperada em 20 sorteios é 2,4, com desvio-padrão de ~1,5. Um 8 está a cerca de 3,7 desvios-padrão do esperado. Raro, mas não impossível — e, com 49 números em jogo, é de se esperar que um ou dois deles cheguem a um extremo desses puramente por acaso em qualquer janela de 20 sorteios.

"O número 13 está devido — não sai há 30 sorteios." A probabilidade de um número específico não aparecer em 30 sorteios consecutivos de uma 6/49 é cerca de (1 - 6/49)^30 ≈ 2,1%. Incomum, mas, com 49 números em jogo, grosso modo um deles está sempre no meio de um jejum de 30 sorteios. Ele não está "devido". Ele está apenas no lado baixo da variância no momento, e tem exatamente a mesma probabilidade de sair no próximo sorteio que qualquer outro número.

"Os números baixos (1–10) estão frios ultimamente." Há 10 números nessa faixa, e a variância da contagem combinada deles em uma janela vai se agrupar em torno do esperado, com dispersão conhecida. Somar contagens faz a variância encolher mais rápido do que para um único número, então "frio" nessa leitura costuma significar "dentro de 1–2 sigmas do esperado para um grupo desse tamanho", o que não é evidência de nada.

"Números consecutivos não têm saído ultimamente." Em qualquer janela curta, a frequência de um padrão específico (números consecutivos, sequências de três, equilíbrio par/ímpar) vai flutuar. A probabilidade de um par consecutivo em um sorteio 6/49 é cerca de 49%, então pares consecutivos devem aparecer em aproximadamente metade dos sorteios. Qualquer variação de curto prazo é ruído.

Como é um gráfico de frequência bem desenhado

Um gráfico de frequência que respeita essas regras costuma ter:

Um indicador claro da janela (por exemplo, "últimos 500 sorteios").
Uma linha de referência para a contagem esperada sob uma distribuição uniforme.
Faixas sombreadas para as bandas de 1-sigma e 2-sigma.
Um gráfico secundário (ou alternância) exibindo a distribuição das contagens como histograma.
Controles para mudar a janela e comparar janelas.
Enquadramento explícito sobre o que o gráfico diz e não diz.

Quando encontrar um gráfico de frequência por aí, confira esses pontos. Cada ausência é um sinal de que o gráfico foi feito para impressionar, não para informar.

Conclusão

Ler um gráfico de frequência sem se enganar é uma habilidade que se aprende. O instinto é olhar as barras e buscar significado nas que se destacam; a disciplina é comparar com o que a aleatoriedade de fato prevê e perceber que a maior parte do sinal aparente é apenas a irregularidade natural de um processo aleatório numa janela finita.

Dados de frequência são genuinamente úteis para entender como as loterias se comportam. Eles são inúteis para escolher números. Essas duas afirmações não se contradizem — são dois lados do que o gráfico realmente é, depois que você tira a mitologia.

Da próxima vez que olhar um gráfico de frequência, passe pelas quatro regras: procure a base, confira a janela, compare com outra janela, leia a variância e não os extremos. Vários gráficos vão parar de te dizer coisas, e alguns vão começar a te dizer algo mais interessante do que o título prometia.