להבין את תדירות מספרי הלוטו

פתחו כל אתר אנליטיקה של לוטו, ואחד הדברים הראשונים שתראו הוא גרף תדירות. בדרך כלל זהו גרף עמודות שבו על ציר אחד מספר, וגובה העמודה עוקב אחר מספר הפעמים שהמספר הזה הוגרל. לעיתים יש גם קוד צבעים — מספרים חמים באדום, מספרים קרים בכחול.

גרפי תדירות פופולריים מפני שהם מובנים באופן מיידי. אתם מביטים בהם ומרגישים שלמדתם משהו. לעיתים באמת למדתם. לעיתים קרובות לא פחות — למדתם את הדבר הלא נכון. המאמר הזה עוסק באיך לקרוא אותם נכון.

מה גרף תדירות באמת מודד

גרף תדירות של לוטו עונה על שאלה ספציפית אחת: במהלך חלון מסוים של הגרלות, כמה פעמים הופיע כל מספר?

זה הכל. לא "אילו מספרים מזל". לא "אילו מספרים מגיע להם". לא "אילו מספרים לבחור בפעם הבאה". רק ספירה גולמית, על פני חלון מוגדר, עבור לוטו ספציפי.

זה נשמע מובן מאליו, אבל ההבחנה חשובה כי כמעט כל בלבול סביב גרפי תדירות נובע מהתייחסות לספירה הזו כמשהו מעבר לספירה.

שלושת המשתנים שחייבים להכיר

לפני שאפשר לקרוא גרף תדירות בכנות, יש צורך בשלושה פרטי מידע. אם הגרף לא מציג אותם — היו חשדנים.

ההגרלה. תדירויות משמעותיות רק בתוך לוטו יחיד. Powerball (5/69 + 1/26) ו‑EuroMillions (5/50 + 2/12) מוגרלים ממרחבי דגימה שונים לחלוטין; אי אפשר להשוות את גרפי התדירות שלהם באופן ישיר.

החלון. כמה הגרלות הגרף מכסה? עשרים האחרונות? חמש‑מאות האחרונות? חמש השנים האחרונות? גרף על פני 20 הגרלות מראה לכם רעש קצר‑טווח. גרף על פני 5,000 הגרלות מראה לכם משהו הקרוב להתפלגות שמאחורי התהליך. אלה דברים שונים. פלטפורמה שלא חושפת את החלון שלה מסתירה את המשתנה החשוב ביותר.

קו הייחוס (הבייסליין). איך היו נראות התדירויות אילו ההגרלה הייתה אחידה לגמרי? עבור 6/49 על פני 500 הגרלות, כל מספר אמור להופיע בערך 500 × 6/49 ≈ 61 פעמים. כל גרף צריך להציג את קו הייחוס הזה כקו התייחסות או כרצועה מוצללת. בלעדיו, שונות טבעית נראית דרמטית; כשמשווים אליו, היא בדרך כלל נראית כרעש.

אם אתם רואים גרף תדירות בלי שלושת הפרטים האלה — סגרו אותו. זו קישוט, לא מידע.

מה "חם" ו"קר" באמת אומרים

הדרך הנפוצה ביותר שבה גרפי תדירות מוצגים בצורה מטעה היא המסגור של חם/קר. מספרים שמעל קו הייחוס הם "חמים"; מספרים מתחתיו הם "קרים". חלק מהפלטפורמות גוזרות מכך המלצה — שחקו על המספרים החמים כי הם "ברצף טוב", או שחקו על המספרים הקרים כי "מגיע להם".

שתי הגזירות שגויות, ומאותה סיבה: השונות שאתם רואים היא כמעט בוודאות רעש.

שקלו לוטו 6/49 שבו התדירות הצפויה של כל מספר על פני 500 הגרלות היא 61. תאוריית ההסתברות אומרת שהספירה בפועל של כל מספר נתון תיפול בטווח סביב 61, כאשר רוחב הטווח נקבע על ידי סטיית התקן של התפלגות בינומית. במקרה הזה, סטיית התקן היא בערך 7.4. משמעות הדבר היא שבערך 95% מהמספרים יקבלו ספירות בין 46 ל‑76 — כתוצאה משונות אקראית בלבד.

אם אתם רואים מספר עם ספירה של 73, הוא לא "רץ חם". הוא יושב בתוך הטווח הרגיל של שונות אקראית. אותו הדבר לגבי מספר עם ספירה של 49 — הוא לא "קר", הוא רק מעט מתחת לתוחלת שלו, בתוך שונות סטטיסטית רגילה.

הניסוח הטכני הוא: תדירויות נצפות שנופלות בתוך שתי סטיות תקן מהתוחלת אינן מספקות שום עדות לאי‑אחידות. רוב דפוסי החם/קר שאנשים רואים הם בדיוק מסוג זה.

מתי גרף תדירות באמת יכול לומר משהו?

יש קבוצה צרה של מקרים שבהם נתוני תדירות עשויים להצביע על אפקט אמיתי:

חלונות ארוכים מאוד. על פני 5,000 או 10,000 הגרלות, שונות טבעית מצטמצמת ביחס לתוחלת, והטיה אמיתית (אם הייתה כזו) הייתה מתחילה להתגלות. עבור רוב ההגרלות זה אומר עשרות שנים של נתונים, ורוב ההגרלות נבדקו בקפדנות על פני טווחי זמן כאלה. התשובה היא כמעט תמיד: אין הטיה אמיתית.

חריגים קיצוניים. אם ספירה של מספר נופלת מחוץ לחמש או שש סטיות תקן מהתוחלת, יש כאן משהו ששווה לחקור. זה כמעט אף פעם לא קורה בהגרלות מוכרות ואמינות. אם זה כן קורה, החשוד הראשון הוא שגיאת איסוף נתונים, לא הפיזיקה של ההגרלה.

השוואות חוצות‑לוטו עם מתודולוגיה עקבית. זה אקדמי יותר מאשר יישומי, אבל אפשר לחקור הגרלות רבות ולחפש סטיות שיטתיות כלשהן. מחקרים שעברו ביקורת עמיתים על הגרלות גדולות מצאו בדרך כלל את מה שהיינו מצפים: ההגרלות אינן ניתנות להבחנה סטטיסטית מאקראי.

מדריך קריאה מעשי

לאור כל זאת, כך באמת אפשר להשתמש בגרף תדירות בלי לשטות בעצמכם:

ודאו את שלושת המשתנים. הגרלה, חלון, קו ייחוס. אם חסר אחד — עצרו.
הסתכלו על הפיזור, לא על הקצוות. השאלה המעניינת אינה "איזה מספר הכי גבוה?" — אלא "כמה פיזור יש בכלל?". השוו לפיזור הצפוי להתפלגות אחידה.
הניחו ששונות היא רעש כברירת מחדל. נטל ההוכחה על הסטייה, לא על האחידות. אם אי אפשר להסביר סטייה עם כמה סטיות תקן של נתונים, זה רעש.
הסתכלו על חלונות מרובים. מספרים שהם "חמים" בחלון אחד כמעט אף פעם לא נשארים חמים בחלון הבא. אם ה"חמימות" לא נשמרת — היא לא הייתה אמיתית.
אל תבחרו מספרים ממנו. זהו הקו האדום. גרפי תדירות מתארים את מה שקרה. הם לא מנבאים את מה שיקרה.

מה פלטפורמות אנליטיקה הגונות עושות

פלטפורמה שלוקחת נתוני תדירות ברצינות:

מציגה את קו הייחוס במפורש. בדרך כלל כרצועה מוצללת עבור סטיית תקן אחת ושתיים.
מאפשרת לשנות את החלון. חלונות שונים עונים על שאלות שונות. פלטפורמה שמסתירה זאת מפשטת יתר על המידה.
מסרבת לדרג מספרים כ"בחירות מנצחות". שום פלטפורמה הגונה לא מדרגת מספרים לפי הסתברות זכייה משתמעת, כי אין הסתברות זכייה משתמעת.
מסבירה את המתמטיקה. צריך להיות דף שמסביר איך חישבו את קו הייחוס ולמה רצועות השונות הן כפי שהן.

גרפי תדירות ככלי לחינוך סטטיסטי

בשימוש נכון, גרף תדירות הוא כלי הוראה יפהפה. הוא מראה שונות טבעית בתהליך אקראי באופן מיידי ונראה לעין, כזה שכמעט אף פעם לא מתאים לאינטואיציה של אנשים. רוב האנשים מצפים שהתפלגויות אחידות ייראו אחידות; הן לא. הן נראות גבשושיות. ללמוד לראות את הגבשושיות כצפויה, ולא כאות — זו תחילת האוריינות ההסתברותית.

זה הדבר הכי טוב שגרפי תדירות יכולים לעשות: לא לבחור מספרים, אלא לאמן את האינטואיציה שלכם לכך שאקראיות באמת נראית כך.

השורה התחתונה

גרף תדירות של לוטו הוא ספירה על פני חלון, בהשוואה לקו ייחוס צפוי. הוא שימושי להבנת כמה "רועשות" הגרלות אקראיות באמת, ולקיצוץ האינטואיציה שלפיה סטיות קטנות מעידות על משהו.

הוא אינו שימושי לבחירת מספרים. הוא לא יכול להיות שימושי לכך. ההגרלות שהפיקו את הגרף היו בלתי תלויות זו בזו, כלומר לגרף אין שום כוח ניבוי לגבי ההגרלה הבאה. זו לא מגבלה של הגרף — זו תכונה של התהליך שמאחוריו.

אם אתם נהנים להסתכל על נתוני תדירות, הסתכלו עליהם כעל מה שהם: חלון אל תוך תהליך אקראי. ברגע שאתם מתחילים לבחור מספרים מתוכם, הגרף מפסיק להיות אנליטיקה ומתחיל להיות אמונה טפלה עם גרף מצורף אליה.