הסתברות5 דק׳ קריאה

הסתברות מול תחזית: מה הנתונים באמת מראים

הגרלות הלוטו הן אקראיות, אך זה לא אומר שהנתונים חסרי תועלת. הבנת ההבדל בין הסתברות לתחזית היא הבסיס לקריאה כנה של סטטיסטיקות לוטו.

צוות LottoWise

כל פלטפורמת אנליטיקה של לוטו נדרשת בסופו של דבר לענות על אותה שאלה: אם ההגרלות אקראיות, לשם מה הנתונים?

זו שאלה לגיטימית, והתשובה הכנה לה אינה זו שרוב עמודי השיווק היו רוצים לתת. הנתונים לא יאמרו לכם באילו מספרים לבחור. הם יאמרו לכם הרבה דברים אחרים — כיצד הגרלות מתנהגות בפועל לאורך זמן, אילו דפוסים הם אמיתיים ואילו הם אשליות, והיכן תורת ההסתברות משתלבת בכל זה. על כך עוסק המאמר הזה.

ההבדל במשפט אחד

הסתברות מתארת את ההתנהגות של אירועים אקראיים על פני ניסיונות רבים. תחזית טוענת לדעת את התוצאה של אירוע עתידי ספציפי.

הסתברות היא מתמטיקה. תחזית, כאשר מיישמים אותה על אירועים אקראיים באמת, היא שיווק.

ההבחנה הזו אינה אקדמית. זו הסיבה שפלטפורמת אנליטיקת לוטו כנה יכולה לפרסם שנים של גרפי תדירות, סטטיסטיקות הישנות וניתוחי מגמות מבלי לטעון לעולם שהיא בוחרת מספרים זוכים — וזו הסיבה שכל פלטפורמה שכן טוענת לבחור מספרים זוכים ראויה שתסובבו לה עורף.

מדוע הגרלות הלוטו אכן אקראיות באמת

רוב ההגרלות הגדולות — Powerball, Mega Millions, EuroMillions, לוטו ישראלי — משתמשות במכונות הגרלה מכניות בעלות כיול מוסדר, ביקורת עצמאית ושידורי הגרלה פומביים. כל המערכת מתוכננת לגרום לכך שכל הגרלה תהיה בלתי תלויה סטטיסטית בכל הגרלה שקדמה לה.

ל"בלתי תלוי סטטיסטית" יש משמעות מדויקת: ההסתברות שמספר ייצא בהגרלה הבאה אינה מושפעת מכך שיצא אתמול, בשבוע שעבר או לפני מאה הגרלות. בלוטו סטנדרטי 6/49 יש 13,983,816 צירופים אפשריים, ולכל אחד מהם יש בדיוק אותה הסתברות להיות מוגרל: בערך 1 מתוך 14 מיליון.

זו אינה טענה שמפעילי הלוטו רוצים להשמיע — זו תכונה של המערכת הפיזית. אם הגרלות מכניות לא היו מפיקות תוצאות בלתי תלויות, רגולטורים היו תופסים זאת במהירות (הם עורכים בדיקות סטטיסטיות נרחבות), והלוטו היה נסגר.

אז מה הנתונים באמת מראים?

אם כל הגרלה בלתי תלויה, מה נתונים היסטוריים יכולים לומר לכם? יותר מכפי שאולי חשבתם — אך לא את מה שרוב האנשים רוצים שהם יאמרו.

תדירויות מתכנסות לכיוון אחיד. על פני מספיק הגרלות, כל מספר מופיע פחות או יותר את אותו מספר פעמים. ה"פחות או יותר" עושה עבודה רצינית במשפט הזה. על פני כמה מאות הגרלות, שונות טבעית תגרום לכך שמספרים מסוימים יופיעו בתדירות גבוהה יותר מאחרים באופן בולט. השונות הזו היא הדרך של הנתונים לומר "תהליכים אקראיים הם גושיים בטווח הקצר". זה לא איתות לכך שהגושיים "אמורים להגיע" או "חמים".

צירופים מתנהגים אחרת ממספרים בודדים. ההסתברות של כל צירוף ספציפי (נניח, 1-2-3-4-5-6) זהה לכל צירוף אחר. אך ההסתברות ששני זוכים כלשהם יחלקו קופה מושפעת בצורה משמעותית מהצירופים שאנשים בוחרים בפועל. מספרי תאריכי לידה (1–31), דפוסים רציפים ובחירות ויזואליות־מעניינות נבחרים הרבה יותר ממה שאקראיות הייתה צופה.

גודל הקופה משפיע על השתתפות, לא על תוצאות. קופות גדולות יותר משמען יותר כרטיסים נמכרים, מה שאומר יותר צירופים מכוסים וחלק צפוי קטן יותר בפרס לזוכים. זה אמיתי, ניתן למדידה ושווה לדעת — וזה לא קשור בכלל לאילו מספרים יעלו.

כשל המהמר, בפירוט

הטעות הנפוצה ביותר בסטטיסטיקת לוטו היא כשל המהמר: האמונה שתוצאות עבר משפיעות על תוצאות עתידיות בתהליך אקראי. הוא מופיע בשתי צורות סימטריות:

שניהם שגויים, ומאותה סיבה: הגרלות מכניות לא זוכרות את ההיסטוריה שלהן. כדור לא יודע שהוא הוגרל בשבוע שעבר. למכונה אין רגיסטר שאומר "אל תגריל 17 יותר מדי". כל הגרלה היא אירוע אקראי רענן עם אותן הסתברויות בסיסיות.

אתם יכולים לאמת זאת בעצמכם בניסוי מחשבתי פשוט. הטילו מטבע עשר פעמים וקבלו עשרה "עץ" ברציפות — אירוע בעל הסתברות 1 מתוך 1,024, אך לא בלתי אפשרי. בהטלה האחת־עשרה, מה ההסתברות ל"עץ"? היא עדיין 50%. למטבע אין זיכרון. גם למכונת לוטו אין.

אז למה בכלל לפרסם גרפי תדירות?

כי הנתונים מעניינים בפני עצמם, וכי הבנה של איך אקראיות נראית היא בעצמה מיומנות בעלת ערך.

גרפי תדירות עונים על שאלות כמו:

  • עד כמה גושית השונות הטבעית בלוטו הזה במהלך השנה האחרונה? שנתיים? חמש שנים?
  • האם התדירויות הנצפות שונות מאחידות באופן שיהיה מובהק סטטיסטית? (כמעט אף פעם לא, בהגרלות אמינות.)
  • איך נראית התפלגות ההישנות של זוגות ספציפיים?
  • באיזו תדירות מופיעים מספרים רצופים? מספרים חוזרים מההגרלה הקודמת?

אלה שאלות על התהליך, לא על התוצאה הבאה. התשובות ניתנות לשחזור, לבדיקה, ו — עבור מי שנהנים מסטטיסטיקה — באמת מעניינות. הן לא יעזרו לכם לבחור זוכים, אך הן יעזרו לכם לראות את ההבדל בין דפוס למקריות.

איך נראית אנליטיקת לוטו כנה

בהתבסס על ההבחנה לעיל, הנה מה שפלטפורמת נתונים יכולה להציע ביושר:

מתודולוגיה שקופה. כל גרף צריך להיות ניתן לשחזור מנתונים פומביים. אם פלטפורמה לא תאמר לכם מאין הנתונים הגיעו או איך החישוב בוצע, התייחסו לגרף כבידור, לא כמידע.

קו ייחוס של התפלגות אחידה. גרף תדירות ללא קו ייחוס שמראה "איך אחידה הייתה נראית" הוא מטעה בהשמטה. שונות טבעית נראית דרמטית ללא קו ייחוס; מול קו ייחוס, היא בדרך כלל נראית כרעש.

חלונות זמן מפורשים. ניתוח "מספר חם" על פני 20 הגרלות מספר לכם על 20 הגרלות. על פני 500 הגרלות הוא מספר לכם משהו קרוב יותר להתפלגות הבסיסית. פלטפורמות שלא חושפות את החלון שלהן מסתירות את המשתנה החשוב ביותר.

ללא תחזיות. זה הקו האדום. פלטפורמה יכולה לתאר מה קרה, להסביר למה זה קרה ולהראות לכם איך אקראיות מתנהגת בפועל. ברגע שהיא אומרת לכם במה לשחק הבא, היא עזבה את תחום האנליטיקה ונכנסה למשהו אחר.

מה אתם יכולים לעשות עם הנתונים

אם אתם נהנים מסטטיסטיקת לוטו, הנה דברים ששווה לעשות:

  • למדו שונות. בחרו לוטו, נסו בעצמכם והסתכלו ב־500 ההגרלות האחרונות, וראו כמה שונות טבעית יש בין מספרים. תפתחו אינטואיציה לכמה סוררים תהליכים אקראיים נראים בפועל.
  • השוו בין הגרלות. הגרלה 5/69 מתנהגת אחרת מהגרלה 6/49 — לא כי אחת "חמה" יותר, אלא כי מרחב המדגם שונה. השוואה ביניהן מלמדת קומבינטוריקה מהר.
  • בדקו את האינטואיציות שלכם. אם אתם מאמינים ש"מספרים מעל 40 עולים בתדירות נמוכה יותר", בדקו את הנתונים. בדרך כלל תטעו, ולטעות באופן ספציפי הוא איך משתפרים בהסתברות.
  • הימנעו מכשל המהמר בתחומים אחרים. ברגע שתראו אותו בבהירות בנתוני לוטו, תתחילו להבחין בו בכל מקום — בפרשנות ספורט, בעצות השקעה ובתחזיות מזג אוויר. זו מיומנות ניתנת להעברה.

שורה תחתונה

נתוני לוטו הם שימושיים באמת — להבנת הסתברות, לראייה כיצד אקראיות מתנהגת, ולחיתוך דרך הרבה שטויות מפתות־אינטואיטיבית. הם אינם שימושיים לבחירת מספרים זוכים, משום ששום נתונים לא יכולים להיות שימושיים לכך. ההגרלות אקראיות, ואקראיות היא כל העניין.

שחקו בלוטו לשם הכיף, אם אתם נהנים מכך. התייחסו לסטטיסטיקה כמו שהיא: חלון לאופן שבו תהליכים אקראיים מתנהגים בפועל, שהוא מעניין יותר ומנוגד־לאינטואיציה יותר ממה שרוב האנשים מצפים.

ואם פלטפורמה כלשהי אי פעם תאמר לכם באילו מספרים לשחק — בהסתברות, בביטחון, עם הבטחת שביעות רצון — זכרו מה פירוש אקראי, וסגרו את הלשונית.