Data Science8 Min. Lesezeit

So lesen Sie ein Häufigkeitsdiagramm, ohne sich selbst zu täuschen

Ein Feldführer zum meistmissverstandenen Diagramm der Lotterieanalyse. Vier Regeln, um Häufigkeitsdaten ehrlich zu lesen — mit Beispielen dafür, wie schlechtes Lesen aussieht.

LottoWise-Team

Häufigkeitsdiagramme sind beliebt, weil sie sofort verständlich sind. Ein Balkendiagramm mit Zahlen auf einer Achse und Anzahl auf der anderen erzählt schnell eine Geschichte — einige Zahlen wirken groß, andere klein, manche stechen hervor, andere verblassen.

Das Problem ist: Die Geschichte, die Ihnen Ihre Augen erzählen, ist meist falsch. Die menschliche Wahrnehmung ist sehr gut darin, Muster zu erkennen — auch solche, die es nicht gibt. Wenn Sie ein Häufigkeitsdiagramm lesen wie ein Balkendiagramm der Verkäufe nach Region, ziehen Sie Schlüsse, die statistisch nicht haltbar sind.

Dieser Artikel ist ein praktischer Leitfaden — vier Regeln plus Beispiele —, um ein Häufigkeitsdiagramm zu lesen, ohne sich selbst zu täuschen.

Regel 1: Immer gegen eine Baseline lesen

Der häufigste Fehler beim Lesen eines Häufigkeitsdiagramms besteht darin, es ohne Referenzlinie für „wie Gleichverteilung aussähe" zu lesen.

Stellen Sie sich eine 6/49-Lotterie über 500 Ziehungen vor. Die erwartete Anzahl je Zahl liegt bei 500 × 6/49 ≈ 61. Ein Diagramm, das die tatsächlichen Zahlen ohne Linie bei 61 zeigt, verleitet Ihr Auge, jeden Balken als Signal zu deuten: Die hohen sind heiß, die niedrigen kalt.

Ziehen Sie nun die Linie bei 61 ein. Das Bild verändert sich schlagartig. Die meisten Balken liegen in der Nähe von 61. Einige darüber, einige darunter. Die Varianz ist eine Verteilung, kein Muster. Die Balken, die hoch wirkten, liegen meist eine oder zwei Standardabweichungen über 61 — bequem innerhalb der Zufallsschwankung.

Ein Häufigkeitsdiagramm ohne Baseline lenkt Ihren Blick auf eine Schlussfolgerung, die die Daten nicht stützen. Wenn eine Plattform Ihnen ein Häufigkeitsdiagramm ohne Baseline zeigt, ist sie sich dessen entweder nicht bewusst — oder nutzt es aus.

Wie gute Baselines aussehen

Eine Baseline ist nicht nur eine einzelne Linie. Die nützliche Version zeigt:

  • Die erwartete Anzahl (den Mittelwert einer Gleichverteilung über dieses Fenster).
  • Ein schattiertes Band für eine Standardabweichung nach oben und unten — rund 68 % der Zahlen sollten allein durch Zufall hier liegen.
  • Ein zweites, helleres Band für zwei Standardabweichungen — rund 95 % der Zahlen sollten in diesem Bereich liegen.

Mit diesen Bändern ändert sich die Frage von „Welche Zahl ist am höchsten?" zu „Wie viele Zahlen liegen außerhalb des Zwei-Sigma-Bandes?" Die Antwort lautet bei jeder seriösen Lotterie meist: sehr wenige — und die, die draußen liegen, wechseln von Fenster zu Fenster.

Regel 2: Das Fenster lesen

Ein Häufigkeitsdiagramm ist immer ein Diagramm über ein bestimmtes Ziehungsfenster. Das Fenster ist meist der einzelne wichtigste Parameter, und Plattformen, die stillschweigend ein Standardfenster setzen, verbergen wichtigen Kontext.

Für eine 6/49-Lotterie ändert sich das Bild je nach Fenster dramatisch:

  • Über 20 Ziehungen: Die Varianz ist enorm. Zahlen, die 4-mal erscheinen, wirken heiß; Zahlen, die 0-mal erscheinen, wirken kalt — beides sagt nichts Reales aus. Die Standardabweichung für die Anzahl einer einzelnen Zahl beträgt etwa 1,5, der plausible Bereich liegt grob bei 0–5.
  • Über 100 Ziehungen: Die Varianz ist kleiner, aber noch erheblich. Erwartungswert ~12, Standardabweichung etwa 3,3. Zahlen können durch reine Zufälligkeit um 6 oder mehr schwanken.
  • Über 500 Ziehungen: Erwartungswert ~61, Standardabweichung etwa 7,4. Die Varianz ist relativ zum Erwartungswert kleiner, aber die am extremsten wirkenden Zahlen liegen meist nur am Rand eines normalen Bereichs.
  • Über 5.000 Ziehungen: Erwartungswert ~612, Standardabweichung etwa 23. Die relative Varianz ist auf etwa 4 % des Erwartungswerts geschrumpft, und das ist das erste Fenster, in dem eine echte Verzerrung deutlich sichtbar würde.

Die Konsequenz: Eine Plattform, die Ihnen ein 20-Ziehungen-Häufigkeitsdiagramm zeigt, präsentiert im Grunde kunstvoll arrangiertes Rauschen. Eine Plattform mit einem 500-Ziehungen-Diagramm zeigt Ihnen die Verteilung zufälliger Varianz. Eine Plattform mit einem 5.000-Ziehungen-Diagramm nähert sich der Grenze nützlicher Information aus historischen Daten.

Keines dieser Fenster rechtfertigt einen „Wählen Sie diese Zahlen"-Rat. Aber sie erzählen unterschiedliche Geschichten — und zu wissen, welches Fenster Sie betrachten, ist entscheidend.

Regel 3: Mehrere Fenster lesen

Ein einzelnes Häufigkeitsdiagramm sagt Ihnen, was in einem Fenster geschah. Mehrere Häufigkeitsdiagramme — dieselbe Lotterie, verschiedene Fenster — sagen Ihnen, was dauerhaft ist und was Rauschen.

Ein nützlicher Test: Nehmen Sie die 10 häufigsten Zahlen in den letzten 50 Ziehungen. Schauen Sie sich dann die Top 10 der 50 Ziehungen davor an. Sind es dieselben?

Für eine zufällige Lotterie lautet die Antwort: Nein. Sie sehen meist 1–2 Überschneidungen — genau das, was der Zufall vorhersagt. Wären heiße Zahlen real, würden Sie 6–7 Überschneidungen sehen. Werden Sie nicht.

Diesen Test über mehrere nicht überlappende Fenster auszuführen, vermittelt ein anschauliches Gefühl dafür, wie rasch sich scheinbare Muster auflösen. Die „heißen" Zahlen im März sind fast nie die „heißen" Zahlen im April — und gerade das ist der stärkste praktische Beleg dafür, dass der Rahmen fehlerhaft ist.

Ernsthafte Analyseplattformen machen das einfach — sie lassen Sie das Fenster verschieben, Fenster vergleichen und die Beständigkeit (oder das Fehlen) von Mustern direkt sehen. Plattformen, die Sie in ein einziges Fenster zwingen, verhindern den Vergleich, der die Schwäche des Rahmens offenbaren würde.

Regel 4: Varianz lesen, nicht die Extreme

Der natürliche Weg, ein Balkendiagramm zu lesen, ist, die Extreme zu betrachten. Welcher Balken ist am höchsten? Welcher am niedrigsten? Dieser Instinkt ist bei Häufigkeitsdiagrammen fast immer falsch.

Die Extreme sind der am wenigsten informative Teil. Per Definition sind sie die Teile der Verteilung, die am stärksten von Zufallsschwankungen betroffen sind. Der Balken für die einzelne höchste Zahl sagt Ihnen fast nichts über die Lotterie — er ist eine Ziehung von vielen aus einer Verteilung, die von Natur aus hohe und niedrige Balken hat.

Die interessante Größe ist die Streuung der gesamten Verteilung. Wie klumpig ist sie insgesamt? Klumpiger, als es eine Gleichverteilung vorhersagen würde? (Fast nie.) Entspricht die Streuung dem, was eine Binomialverteilung vorhersagen würde? (Fast immer.)

Ein Diagramm, das das Histogramm der Zählungen über alle Zahlen zeigt — mit den Anzahlen auf einer Achse und „wie viele Zahlen hatten diese Anzahl?" auf der anderen — ist aufschlussreicher als das rohe Häufigkeitsdiagramm. Die Form des Histogramms verrät Ihnen, ob die Varianz zufälligen Erwartungen entspricht. Wenn die Form von einer Binomialverteilung nicht zu unterscheiden ist, gibt es kein Signal. In der Praxis ist sie das fast immer.

Beispiele für schlechtes Lesen

Um die Regeln zu veranschaulichen, hier vier Schlüsse, die Menschen häufig aus Häufigkeitsdiagrammen ziehen und die nicht haltbar sind:

„Zahl 27 ist heiß — sie erschien in den letzten 20 Ziehungen 8-mal." In einer 6/49-Lotterie beträgt der Erwartungswert über 20 Ziehungen 2,4 bei einer Standardabweichung von ~1,5. Eine 8 liegt etwa 3,7 Standardabweichungen über dem Erwartungswert. Selten, aber nicht unmöglich — und bei 49 Zahlen im Spiel würden Sie erwarten, dass ein oder zwei von ihnen in einem beliebigen 20-Ziehungs-Fenster rein zufällig ein solches Extrem erreichen.

„Zahl 13 ist fällig — sie erschien in 30 Ziehungen nicht." Die Wahrscheinlichkeit, dass eine bestimmte Zahl in 30 aufeinanderfolgenden 6/49-Ziehungen nicht erscheint, beträgt etwa (1 - 6/49)^30 ≈ 2,1 %. Ungewöhnlich, aber bei 49 Zahlen im Spiel befindet sich grob immer eine davon mitten in einer 30-Ziehungen-Durststrecke. Sie ist nicht „fällig". Sie liegt aktuell nur auf der niedrigen Seite der Varianz und hat exakt dieselbe Wahrscheinlichkeit, in der nächsten Ziehung zu erscheinen, wie jede andere Zahl.

„Die niedrigen Zahlen (1–10) sind zuletzt kalt gewesen." In diesem Bereich gibt es 10 Zahlen, und die Varianz ihrer kombinierten Zahl über ein Fenster wird sich mit bekannter Streuung um den Erwartungswert konzentrieren. Die kombinierte Zahl betrachtet lässt die Varianz schneller schrumpfen als Einzelzählungen, sodass „kalt" in dieser Einordnung meist „innerhalb 1–2 Sigma um den Erwartungswert für eine Gruppe dieser Größe" bedeutet — also keinen Beleg.

„Aufeinanderfolgende Zahlen kamen zuletzt nicht vor." Über jedes kurze Fenster schwankt die Häufigkeit jedes spezifischen Musters (aufeinanderfolgende Zahlen, Dreierläufe, Gerade/Ungerade-Verhältnis). Die Wahrscheinlichkeit eines aufeinanderfolgenden Paares in einer 6/49-Ziehung beträgt etwa 49 %, sodass aufeinanderfolgende Paare in etwa der Hälfte aller Ziehungen erscheinen sollten. Jede kürzerfristige Abweichung ist Rauschen.

Wie ein gut gestaltetes Häufigkeitsdiagramm aussieht

Ein Häufigkeitsdiagramm, das diese Regeln respektiert, hat typischerweise:

  • Einen klaren Hinweis auf das Fenster (z. B. „letzte 500 Ziehungen").
  • Eine Referenzlinie für den Erwartungswert unter Gleichverteilung.
  • Schattierte Bänder für die 1-Sigma- und 2-Sigma-Bereiche.
  • Ein sekundäres Diagramm (oder einen Umschalter), das die Verteilung der Zählungen als Histogramm zeigt.
  • Steuerungen zum Ändern des Fensters und zum Vergleich über Fenster hinweg.
  • Eine explizite Einordnung dessen, was das Diagramm aussagt — und was nicht.

Wenn Sie ein Häufigkeitsdiagramm in freier Wildbahn sehen, prüfen Sie diese Punkte. Jeder fehlende ist ein Hinweis darauf, dass das Diagramm eher beeindrucken als informieren soll.

Fazit

Ein Häufigkeitsdiagramm zu lesen, ohne sich selbst zu täuschen, ist eine erlernbare Fähigkeit. Der Instinkt sagt, man solle auf die hervorstechenden Balken schauen und ihnen Bedeutung zuschreiben; die Disziplin besteht darin, gegen das zu vergleichen, was der Zufall tatsächlich vorhersagt — und zu bemerken, dass das meiste scheinbare Signal nur die natürliche Klumpigkeit eines Zufallsprozesses über ein endliches Fenster ist.

Häufigkeitsdaten sind tatsächlich nützlich, um das Verhalten von Lotterien zu verstehen. Zum Zahlenauswählen sind sie nutzlos. Diese beiden Aussagen widersprechen einander nicht — sie sind zwei Aspekte dessen, was das Diagramm ist, sobald man die Mythologie abgestreift hat.

Gehen Sie beim nächsten Häufigkeitsdiagramm die vier Regeln durch: Baseline, Fenster, Vergleich mit anderem Fenster, Varianz statt Extreme. Viele Diagramme werden aufhören, Ihnen Dinge zu erzählen — und einige werden beginnen, Ihnen etwas Interessanteres zu erzählen als die Überschrift versprach.