איך לקרוא תרשים תדירויות בלי לשטות בעצמכם
מדריך שטח לתרשים הכי מוטעה-בקריאה באנליטיקת לוטו. ארבעה כללים לקריאה הגונה של נתוני תדירות, עם דוגמאות לקריאה גרועה.
תרשימי תדירויות פופולריים כי הם קריאים מיד. תרשים עמודות עם מספרים על ציר אחד וספירות על השני מספר סיפור במהירות — כמה מספרים נראים גדולים, כמה נראים קטנים, כמה קופצים לעין וכמה נסוגים לרקע.
הבעיה היא שהסיפור שהעיניים שלכם מספרות לכם הוא בדרך כלל שגוי. התפיסה החזותית האנושית טובה מאוד בזיהוי דפוסים, כולל דפוסים שאינם קיימים. אם תקראו תרשים תדירויות באותו אופן שבו הייתם קוראים תרשים עמודות של מכירות לפי אזור, תגיעו למסקנות שלא מחזיקות מעמד מבחינה סטטיסטית.
המאמר הזה הוא מדריך מעשי — ארבעה כללים, בתוספת דוגמאות — לקריאת תרשים תדירויות בלי לשטות בעצמכם.
כלל 1: תמיד לקרוא מול קו בסיס
הטעות הנפוצה ביותר בקריאת תרשים תדירויות היא לקרוא אותו ללא קו ייחוס ל"איך התפלגות אחידה הייתה נראית".
דמיינו לוטו 6/49 על פני 500 הגרלות. מספר הופעות צפוי לכל מספר הוא 500 × 6/49 ≈ 61. תרשים שמציג את הספירות בפועל ללא קו ב-61 יגרום לעין שלכם לפרש כל עמודה כאות: הגבוהות חמות, הנמוכות קרות.
עכשיו מתחו את הקו ב-61. פתאום התמונה משתנה. רוב העמודות קרובות ל-61. כמה מעל, כמה מתחת. לשונות יש התפלגות, לא דפוס. העמודות שנראו גבוהות נמצאות בדרך כלל סטיית תקן אחת או שתיים מעל 61 — בתוך שונות אקראית בנוחות.
תרשים תדירויות ללא קו בסיס מוביל את העין שלכם למסקנה שאינה נתמכת בנתונים. אם פלטפורמה מציגה לכם תרשים תדירויות ללא קו בסיס, היא או לא מודעת לכך או מנצלת זאת.
איך נראים קווי בסיס טובים
קו בסיס אינו רק קו בודד. הגרסה השימושית מציגה:
- מספר הופעות צפוי (הממוצע של התפלגות אחידה על פני החלון הזה).
- רצועה מוצללת לסטיית תקן אחת מעל ומתחת — כ-68% מהמספרים צפויים ליפול כאן רק מכוח המקרה.
- רצועה שנייה, בהירה יותר, לשתי סטיות תקן — כ-95% מהמספרים צפויים ליפול בטווח הזה.
ברגע שיש לכם את הרצועות האלה, השאלה משתנה מ"איזה מספר הכי גבוה?" ל"כמה מספרים נמצאים מחוץ לרצועת 2-sigma?" התשובה, עבור כל לוטו מכובד, היא בדרך כלל מעטים מאוד — ואלה שכן נמצאים שם זזים מחלון לחלון.
כלל 2: לקרוא את החלון
תרשים תדירויות הוא תמיד תרשים על פני חלון ספציפי של הגרלות. החלון הוא בדרך כלל הפרמטר החשוב ביותר, ופלטפורמות שמאפשרות לכם להחמיץ שקט חלון ברירת מחדל מסוים מסתירות הקשר חשוב.
עבור לוטו 6/49, הסיפור משתנה דרמטית לפי חלון:
- על פני 20 הגרלות: השונות עצומה. מספרים שהופיעו 4 פעמים נראים חמים, מספרים שהופיעו 0 פעמים נראים קרים, ואף אחד מהם לא מספר לכם דבר אמיתי. סטיית תקן על ספירה של מספר בודד היא בערך 1.5, וטווח הספירות המתקבלות על הדעת הוא בערך 0–5.
- על פני 100 הגרלות: השונות קטנה יותר אך עדיין משמעותית. מספר הופעות צפוי הוא ~12, סטיית תקן בערך 3.3. מספרים יכולים להתנדנד ב-6 או יותר רק מאקראיות.
- על פני 500 הגרלות: מספר הופעות צפוי הוא ~61, סטיית תקן בערך 7.4. השונות קטנה יותר יחסית לצפוי, אך המספרים שנראים הקיצוניים ביותר עדיין נמצאים בדרך כלל בקצה של טווח נורמלי.
- על פני 5,000 הגרלות: מספר הופעות צפוי הוא ~612, סטיית תקן בערך 23. שונות יחסית הצטמקה לכ-4% מהצפוי, וזה החלון הראשון שבו הטיה אמיתית הייתה מתחילה להופיע בבירור.
המשמעות: פלטפורמה שמציגה לכם תרשים תדירויות של 20 הגרלות מציגה לכם בעצם רעש, מסודר באומנות. פלטפורמה שמציגה לכם תרשים של 500 הגרלות מציגה לכם את ההתפלגות של שונות אקראית. פלטפורמה שמציגה לכם תרשים של 5,000 הגרלות מתחילה להתקרב לגבול המידע השימושי מנתונים היסטוריים.
אף אחד מהחלונות האלה לא מצדיק עצות של "בחרו את המספרים האלה". אבל הם אכן אומרים לכם דברים שונים, והכרת החלון שבו אתם מסתכלים היא קריטית.
כלל 3: לקרוא חלונות מרובים
תרשים תדירויות יחיד מספר לכם מה קרה בחלון אחד. תרשימי תדירויות מרובים — אותו לוטו, חלונות שונים — אומרים לכם מה מתמיד ומה רעש.
מבחן שימושי: קחו את 10 המספרים הכי תכופים ב-50 ההגרלות האחרונות. עכשיו הסתכלו על 10 המובילים ב-50 ההגרלות שלפניהן. האם הם אותם מספרים?
עבור לוטו אקראי, התשובה תהיה לא. בדרך כלל תראו 1–2 חפיפות, שזה בדיוק מה שהסיכוי צופה. אם מספרים חמים היו אמיתיים, הייתם רואים 6–7 חפיפות. לא תראו.
הרצת המבחן הזה על פני חלונות מרובים שאינם חופפים נותנת לכם תחושה ויסצרלית של כמה מהר דפוסים לכאורה מתפוגגים. המספרים ה"חמים" של מרץ כמעט אף פעם לא המספרים ה"חמים" של אפריל, והעובדה שהם לא היא העדות המעשית החזקה ביותר שתראו אי פעם לכך שהמסגור שבור.
פלטפורמות אנליטיקה רציניות מקלות על זה — הן מאפשרות לכם להחליק את החלון, להשוות חלונות, ולראות ישירות את ההתמדה (או ההיעדרות) של דפוסים. פלטפורמות שנועלות אתכם בחלון בודד מונעות את ההשוואה שהייתה חושפת את חולשת המסגרת.
כלל 4: לקרוא שונות, לא קיצוניות
הדרך הטבעית לקרוא תרשים עמודות היא להסתכל על הקיצוניות. איזו עמודה הכי גבוהה? איזו הכי נמוכה? האינסטינקט הזה כמעט תמיד שגוי לתרשימי תדירויות.
הקיצוניות הם החלק הכי פחות אינפורמטיבי. מעצם הגדרתם, הם החלקים של ההתפלגות שמושפעים ביותר משונות אקראית. העמודה של המספר היחיד הגבוה ביותר אומרת לכם כמעט כלום על הלוטו — זו הגרלה אחת מתוך רבות מהתפלגות שמטבעה יש בה עמודות גבוהות וקצרות.
הכמות המעניינת היא הפיזור של כל ההתפלגות. כמה גושית היא בסך הכול? האם היא יותר גושית ממה שהתפלגות אחידה הייתה צופה? (כמעט אף פעם לא.) האם הפיזור תואם את מה שהתפלגות בינומית הייתה צופה? (כמעט תמיד.)
תרשים שמציג לכם את ההיסטוגרמה של ספירות על פני כל המספרים — עם ספירות על ציר אחד ו"כמה מספרים היו עם הספירה הזו?" על השני — הוא יותר אינפורמטיבי מתרשים התדירויות הגולמי. צורת ההיסטוגרמה אומרת לכם האם השונות תואמת ציפיות אקראיות. אם צורת התרשים אינה ניתנת להבחנה מבינומית, אין אות. בפועל, היא כמעט תמיד אינה ניתנת להבחנה.
דוגמאות לקריאה גרועה
כדי להפוך את הכללים האלה לקונקרטיים, הנה ארבעה דברים שאנשים נוטים להסיק מתרשימי תדירויות שלא מחזיקים מעמד:
"מספר 27 חם — הוא הופיע 8 פעמים ב-20 ההגרלות האחרונות." בלוטו 6/49, מספר הופעות צפוי על פני 20 הגרלות הוא 2.4, עם סטיית תקן של ~1.5. 8 הוא בערך 3.7 סטיות תקן מעל הצפוי. נדיר, אבל לא בלתי אפשרי — ובהינתן 49 מספרים במשחק, אפשר לצפות שאחד או שניים מהם יפגעו בקיצוניות כזו נטו מסיכוי בכל חלון של 20 הגרלות.
"מספר 13 צריך לצאת — הוא לא הופיע ב-30 הגרלות." ההסתברות שמספר ספציפי לא יופיע ב-30 הגרלות רצופות של 6/49 היא בערך (1 - 6/49)^30 ≈ 2.1%. לא שכיח, אבל עם 49 מספרים במשחק, בערך אחד מהם נמצא תמיד באמצע בצורת של 30 הגרלות. הוא לא "צריך לצאת". הוא פשוט נמצא כרגע בצד הנמוך של השונות, ויש לו בדיוק אותה הסתברות להופיע בהגרלה הבאה כמו לכל מספר אחר.
"המספרים הנמוכים (1–10) היו קרים לאחרונה." יש 10 מספרים בטווח הזה, והשונות של הספירה המשולבת שלהם על פני חלון מסוים תתרכז סביב הצפוי עם פיזור ידוע. הסתכלות על הספירה המשולבת גורמת לשונות להצטמק מהר יותר מספירות של מספר בודד, כך ש"קר" במסגור הזה פירושו בדרך כלל "בתוך 1–2 sigma מהצפוי עבור קבוצה בגודל הזה", שזה לא עדות לדבר.
"מספרים עוקבים לא יצאו לאחרונה." על פני כל חלון קצר, התדירות של כל דפוס ספציפי (מספרים עוקבים, רצפים של שלושה מספרים, איזון זוגי/אי-זוגי) תשתנה. ההסתברות לזוג עוקב בהגרלת 6/49 היא בערך 49%, כך שזוגות עוקבים צפויים להופיע בערך בחצי מכל ההגרלות. כל שינוי לטווח קצר יותר הוא רעש.
איך נראה תרשים תדירויות מעוצב היטב
תרשים תדירויות שמכבד את הכללים האלה בדרך כלל כולל:
- אינדיקטור ברור של החלון (למשל, "500 ההגרלות האחרונות").
- קו ייחוס למספר הופעות צפוי תחת התפלגות אחידה.
- רצועות מוצללות לטווחי 1-sigma ו-2-sigma.
- תרשים משני (או מתג) שמציג את התפלגות הספירות כהיסטוגרמה.
- בקרות לשינוי החלון ולהשוואה בין חלונות.
- מסגור מפורש על מה שהתרשים כן ולא אומר לכם.
כשאתם רואים תרשים תדירויות בטבע, בדקו את אלה. כל אחד שחסר הוא סימן שהתרשים מעוצב להרשים ולא להודיע.
השורה התחתונה
קריאת תרשים תדירויות בלי לשטות בעצמכם היא מיומנות שניתן ללמוד. האינסטינקט הוא להסתכל על העמודות ולמצוא משמעות באלה שבולטות; המשמעת היא להשוות מול מה שאקראיות באמת צופה, ולשים לב שרוב האות לכאורה הוא פשוט הגושיות הטבעית של תהליך אקראי על פני חלון סופי.
נתוני תדירות שימושיים באמת להבנה של איך לוטו מתנהג. הם חסרי שימוש לבחירת מספרים. שתי האמירות האלה לא סותרות זו את זו — הן שני היבטים של מה שהתרשים באמת הוא, ברגע שמפשיטים את המיתולוגיה.
בפעם הבאה שתראו תרשים תדירויות, עברו על ארבעת הכללים: חפשו קו בסיס, בדקו את החלון, השוו לחלון אחר, קראו את השונות ולא את הקיצוניות. תראו הרבה תרשימים מפסיקים לומר לכם דברים, וכמה מתחילים לומר לכם משהו יותר מעניין ממה שהכותרת הבטיחה.