Come leggere un grafico di frequenza senza illudersi
Una guida pratica al grafico più frainteso dell'analisi della lotteria. Quattro regole per leggere i dati di frequenza in modo onesto, con esempi di cosa significhi leggerli male.
I grafici di frequenza sono popolari perché sono immediatamente leggibili. Un grafico a barre con i numeri su un asse e i conteggi sull'altro racconta una storia in fretta: alcuni numeri sembrano grandi, altri piccoli, alcuni saltano all'occhio, altri sbiadiscono sullo sfondo.
Il problema è che la storia che i tuoi occhi ti raccontano è di solito sbagliata. La percezione visiva umana è molto brava a rilevare pattern, compresi pattern che non esistono. Se leggi un grafico di frequenza come leggeresti un grafico a barre delle vendite per regione, trarrai conclusioni che non tengono dal punto di vista statistico.
Questo articolo è una guida pratica — quattro regole, più esempi — per leggere un grafico di frequenza senza illudersi.
Regola 1: leggi sempre rispetto a una baseline
L'errore più comune nella lettura di un grafico di frequenza è leggerlo senza una linea di riferimento per "come apparirebbe l'uniforme".
Immagina una lotteria 6/49 su 500 estrazioni. Il conteggio atteso per ciascun numero è 500 × 6/49 ≈ 61. Un grafico che mostra i conteggi effettivi senza una linea a 61 invita l'occhio a interpretare ogni barra come segnale: le alte sono calde, le basse sono fredde.
Ora traccia la linea a 61. Improvvisamente il quadro cambia. La maggior parte delle barre è vicina a 61. Alcune sopra, alcune sotto. La varianza ha una distribuzione, non un pattern. Le barre che sembravano alte sono di solito a una o due deviazioni standard sopra 61 — comodamente entro la variazione casuale.
Un grafico di frequenza senza baseline sta portando il tuo occhio verso una conclusione non supportata dai dati. Se una piattaforma ti mostra un grafico di frequenza senza baseline, o non ne è consapevole o ne sta approfittando.
Come sono fatte le buone baseline
Una baseline non è solo una singola linea. La versione utile mostra:
- Il conteggio atteso (la media di una distribuzione uniforme su questa finestra).
- Una banda ombreggiata per una deviazione standard sopra e sotto — circa il 68% dei numeri dovrebbe rientrare qui per puro caso.
- Una seconda banda, più chiara, per due deviazioni standard — circa il 95% dei numeri dovrebbe rientrare in questo intervallo.
Una volta che hai queste bande, la domanda cambia da "quale numero è il più alto?" a "quanti numeri sono fuori dalla banda a due sigma?". La risposta, per qualsiasi lotteria affidabile, è di solito: molto pochi — e quelli che lo sono cambiano da finestra a finestra.
Regola 2: leggi la finestra
Un grafico di frequenza è sempre un grafico su una specifica finestra di estrazioni. La finestra è di solito il parametro più importante, e le piattaforme che ti lasciano usare silenziosamente una finestra di default stanno nascondendo contesto importante.
Per una lotteria 6/49, la storia cambia radicalmente in base alla finestra:
- Su 20 estrazioni: la varianza è enorme. I numeri che compaiono 4 volte sembrano caldi, quelli che compaiono 0 volte sembrano freddi, e nessuno dei due sta dicendo qualcosa di reale. La deviazione standard del conteggio di un singolo numero è circa 1,5 e l'intervallo plausibile di conteggi è all'incirca 0–5.
- Su 100 estrazioni: la varianza è minore ma ancora sostanziale. Conteggio atteso ~12, deviazione standard ~3,3. I numeri possono oscillare di 6 o più solo per via della casualità.
- Su 500 estrazioni: conteggio atteso ~61, deviazione standard ~7,4. La varianza è più piccola relativamente all'atteso, ma i numeri che sembrano più estremi sono di solito ancora solo al bordo di un intervallo normale.
- Su 5.000 estrazioni: conteggio atteso ~612, deviazione standard ~23. La varianza relativa si è ridotta a circa il 4% dell'atteso, e questa è la prima finestra in cui un vero bias inizierebbe a mostrarsi con chiarezza.
L'implicazione: una piattaforma che ti mostra un grafico di frequenza su 20 estrazioni ti sta sostanzialmente mostrando rumore, disposto ad arte. Una piattaforma che ti mostra un grafico su 500 estrazioni ti sta mostrando la distribuzione della varianza casuale. Una piattaforma che ti mostra un grafico su 5.000 estrazioni si sta avvicinando al limite dell'informazione utile ricavabile dai dati storici.
Nessuna di queste finestre giustifica il consiglio "gioca questi numeri". Ma ti dicono cose diverse, e sapere quale finestra stai guardando è fondamentale.
Regola 3: leggi più finestre
Un singolo grafico di frequenza ti dice cosa è successo in una finestra. Più grafici di frequenza — stessa lotteria, finestre diverse — ti dicono cosa persiste e cosa è rumore.
Un test utile: prendi i primi 10 numeri più frequenti nelle ultime 50 estrazioni. Ora guarda i primi 10 delle 50 estrazioni precedenti. Sono gli stessi?
Per una lotteria casuale, la risposta sarà no. Di solito vedrai 1–2 sovrapposizioni, esattamente ciò che il caso prevede. Se i numeri caldi fossero reali, vedresti 6–7 sovrapposizioni. Non le vedrai.
Eseguire questo test su più finestre non sovrapposte dà una percezione viscerale di quanto rapidamente i pattern apparenti si dissolvano. I numeri "caldi" di marzo quasi mai sono anche quelli di aprile, e il fatto che non lo siano è l'evidenza pratica più forte che vedrai del fatto che l'impostazione è rotta.
Le piattaforme di analisi serie rendono questo semplice — ti permettono di far scorrere la finestra, confrontare finestre e vedere direttamente la persistenza (o l'assenza) dei pattern. Le piattaforme che ti bloccano su una singola finestra stanno impedendo il confronto che smaschererebbe la debolezza dell'impostazione.
Regola 4: leggi la varianza, non gli estremi
Il modo naturale di leggere un grafico a barre è guardare agli estremi. Quale barra è la più alta? Quale è la più bassa? Questo istinto è quasi sempre sbagliato per i grafici di frequenza.
Gli estremi sono la parte meno informativa. Per definizione, sono le parti della distribuzione più influenzate dalla variazione casuale. La barra del singolo numero più alto ti dice quasi nulla sulla lotteria — è un'estrazione tra molte da una distribuzione che ha naturalmente barre alte e basse.
La quantità interessante è la dispersione dell'intera distribuzione. Quanto è "a grumi" nel complesso? È più a grumi di quanto preveda una distribuzione uniforme? (Quasi mai.) La dispersione corrisponde a ciò che prevede una distribuzione binomiale? (Quasi sempre.)
Un grafico che ti mostra l'istogramma dei conteggi su tutti i numeri — con i conteggi su un asse e "quanti numeri hanno avuto questo conteggio?" sull'altro — è più informativo del grafico di frequenza grezzo. La forma dell'istogramma ti dice se la varianza corrisponde alle aspettative casuali. Se la forma del grafico è indistinguibile da una binomiale, non c'è segnale. In pratica, è quasi sempre indistinguibile.
Esempi di cattiva lettura
Per rendere concrete queste regole, ecco quattro conclusioni che le persone traggono comunemente dai grafici di frequenza e che non reggono:
"Il numero 27 è caldo — è apparso 8 volte nelle ultime 20 estrazioni." In una lotteria 6/49, il conteggio atteso su 20 estrazioni è 2,4, con deviazione standard di ~1,5. Un 8 è circa 3,7 deviazioni standard sopra l'atteso. Raro, ma non impossibile — e con 49 numeri in gioco, ci si aspetta che uno o due di essi colpiscano un estremo del genere per puro caso in una qualsiasi finestra di 20 estrazioni.
"Il numero 13 è in ritardo — non esce da 30 estrazioni." La probabilità che uno specifico numero non appaia in 30 estrazioni consecutive di un 6/49 è circa (1 - 6/49)^30 ≈ 2,1%. Non comune, ma con 49 numeri in gioco, all'incirca uno di loro è sempre nel mezzo di un digiuno di 30 estrazioni. Non è "in ritardo". È semplicemente, al momento, sul lato basso della varianza, e ha esattamente la stessa probabilità di apparire alla prossima estrazione di ogni altro numero.
"I numeri bassi (1–10) sono stati freddi ultimamente." Ci sono 10 numeri in quell'intervallo, e la varianza del loro conteggio combinato su una finestra si raggrupperà attorno all'atteso con dispersione nota. Guardare il conteggio combinato riduce la varianza più rapidamente dei conteggi dei singoli numeri, quindi "freddo" in questa formulazione di solito significa "entro 1–2 sigma dall'atteso per un gruppo di questa dimensione", che non è evidenza di nulla.
"I numeri consecutivi non sono usciti di recente." Su qualsiasi finestra breve, la frequenza di uno specifico pattern (numeri consecutivi, serie di tre numeri, equilibrio pari/dispari) oscillerà. La probabilità di una coppia consecutiva in un'estrazione 6/49 è circa 49%, quindi le coppie consecutive dovrebbero apparire in circa metà delle estrazioni. Qualsiasi variazione di più breve periodo è rumore.
Come appare un grafico di frequenza ben progettato
Un grafico di frequenza che rispetta queste regole tipicamente ha:
- Un'indicazione chiara della finestra (es. "ultime 500 estrazioni").
- Una linea di riferimento per il conteggio atteso sotto una distribuzione uniforme.
- Bande ombreggiate per gli intervalli a 1 sigma e 2 sigma.
- Un grafico secondario (o un toggle) che mostra la distribuzione dei conteggi come istogramma.
- Controlli per cambiare la finestra e confrontare tra finestre.
- Formulazioni esplicite su cosa il grafico dice e cosa non dice.
Quando vedi un grafico di frequenza là fuori, verifica la presenza di questi elementi. Ogni elemento mancante è un segnale che il grafico è progettato per impressionare, non per informare.
In sintesi
Leggere un grafico di frequenza senza illudersi è un'abilità che si impara. L'istinto è di guardare le barre e trovare significato in quelle che spiccano; la disciplina è di confrontarle con ciò che la casualità effettivamente prevede, e accorgersi che la maggior parte del segnale apparente è solo la naturale irregolarità di un processo casuale su una finestra finita.
I dati di frequenza sono davvero utili per capire come si comportano le lotterie. Sono inutili per scegliere i numeri. Queste due affermazioni non si contraddicono — sono due aspetti di ciò che il grafico effettivamente è, una volta tolta la mitologia.
La prossima volta che vedi un grafico di frequenza, passa attraverso le quattro regole: cerca una baseline, controlla la finestra, confronta con un'altra finestra, leggi la varianza non gli estremi. Vedrai molti grafici smettere di dirti cose, e alcuni iniziare a dirti qualcosa di più interessante di quanto prometta il titolo.