확률읽는 시간 14분

확률 vs. 예측: 데이터가 실제로 보여주는 것

복권 추첨은 무작위이지만, 그렇다고 데이터가 쓸모없는 것은 아닙니다. 확률과 예측의 차이를 이해하는 것이 복권 통계를 정직하게 읽는 기반입니다.

LottoWise 팀

모든 복권 분석 플랫폼은 결국 같은 질문에 답해야 합니다. 추첨이 무작위라면, 데이터는 무엇을 위한 것인가?

정당한 질문이며, 정직한 답은 대부분의 마케팅 페이지가 하고 싶어 하는 답과는 다릅니다. 데이터는 어떤 숫자를 고를지 알려주지 않습니다. 데이터는 많은 다른 것을 알려줍니다 — 시간이 지남에 따라 추첨이 실제로 어떻게 움직이는지, 어떤 패턴이 진짜이고 어떤 것이 착각인지, 그리고 확률 이론이 이 모든 것에 어디에 자리 잡는지. 이 글이 다루는 것이 바로 그것입니다.

한 문장으로 말하는 차이

확률은 많은 시도에 걸쳐 무작위 사건이 어떻게 행동하는지를 기술합니다. 예측은 구체적인 미래 사건의 결과를 안다고 주장합니다.

확률은 수학입니다. 진정으로 무작위인 사건에 적용될 때, 예측은 마케팅입니다.

이 구분은 학문적인 것이 아닙니다. 정직한 복권 분석 플랫폼이 당첨 번호를 고른다고 주장하지 않으면서도 수년 치 빈도 차트, 재등장 통계, 추세 분석을 게시할 수 있는 이유 — 그리고 당첨 번호를 고른다고 주장하는 플랫폼이라면 자리를 떠날 가치가 있는 이유 — 바로 이 구분 때문입니다.

복권 추첨이 진정으로 무작위인 이유

주요 복권 대부분 — Powerball, Mega Millions, EuroMillions, 이스라엘 Lotto — 은 규제된 보정, 독립적인 감사, 공개 추첨 방송을 갖춘 기계식 추첨 기계를 사용합니다. 전체 시스템은 매 추첨이 이전의 모든 추첨과 통계적으로 독립적이도록 설계되어 있습니다.

"통계적으로 독립적"이라는 말에는 정확한 의미가 있습니다. 다음 추첨에서 어떤 숫자가 뽑힐 확률은 그 숫자가 어제, 지난주, 혹은 100회차 전에 뽑혔는지 여부에 영향을 받지 않습니다. 표준 6/49 복권은 13,983,816개의 가능한 조합을 가지고 있으며, 각 조합이 뽑힐 확률은 정확히 동일합니다. 대략 1400만분의 1입니다.

이것은 복권 운영사가 주장하고 싶어 하는 내용이 아니라 — 물리적 시스템의 성질입니다. 기계식 추첨이 독립적인 결과를 생성하지 않는다면, 규제 기관은 이를 빠르게 적발할 것이고(광범위한 통계 검정을 실시합니다), 해당 복권은 중단될 것입니다.

그렇다면 데이터는 실제로 무엇을 보여주는가?

매 추첨이 독립적이라면, 과거 데이터는 무엇을 알려줄 수 있을까요? 예상보다 훨씬 많습니다 — 하지만 대부분의 사람들이 원하는 것은 아닙니다.

빈도는 균일을 향해 수렴합니다. 충분한 추첨에 걸쳐 모든 숫자는 대략 같은 횟수만큼 등장합니다. 이 문장에서 "대략"이라는 말이 많은 일을 하고 있습니다. 수백 회차에 걸쳐 자연 분산은 일부 숫자를 다른 숫자보다 눈에 띄게 자주 등장하게 만듭니다. 그 분산은 "무작위 과정은 단기적으로 울퉁불퉁하다"는 데이터의 표현입니다. 울퉁불퉁한 쪽이 "곧 나올 차례"이거나 "핫" 하다는 신호가 아닙니다.

조합은 개별 숫자와 다르게 행동합니다. 특정 조합(예: 1-2-3-4-5-6)이 뽑힐 확률은 다른 조합과 동일합니다. 그러나 두 명 이상의 당첨자가 상금 풀을 나누어 가질 확률은 사람들이 실제로 어떤 조합을 고르는지에 크게 좌우됩니다. 생일 숫자(1~31), 연속 패턴, 시각적으로 흥미로운 선택은 무작위가 예측할 것보다 훨씬 많이 선택됩니다.

잭팟 규모는 참여에 영향을 미치지, 결과에 영향을 주지 않습니다. 더 큰 잭팟은 더 많은 티켓 판매를 의미하며, 이는 더 많은 조합이 커버되고 당첨자의 기대 상금 분배가 더 작아진다는 뜻입니다. 이는 실제적이고 측정 가능하며 알아둘 가치가 있습니다 — 그리고 어떤 숫자가 나올지와는 전혀 관련이 없습니다.

도박꾼의 오류, 자세히

복권 통계에서 가장 흔한 실수는 도박꾼의 오류입니다: 무작위 과정에서 과거 결과가 미래 결과에 영향을 미친다는 믿음입니다. 이것은 두 가지 대칭적인 형태로 나타납니다.

  • "이 숫자는 50회차 동안 나오지 않았다 — 곧 나올 차례다."
  • "이 숫자는 지난주에 나왔다 — 핫하다."

둘 다 틀렸고, 같은 이유에서 틀렸습니다: 기계식 추첨은 과거를 기억하지 않습니다. 공은 지난주에 자신이 뽑혔다는 것을 모릅니다. 기계에는 "17번을 너무 자주 뽑지 말라"고 말하는 레지스터가 없습니다. 매 추첨은 동일한 기저 확률을 가진 새로운 무작위 사건입니다.

간단한 사고 실험으로 직접 확인할 수 있습니다. 공정한 동전을 열 번 던져서 연속으로 열 번 앞면이 나왔다고 합시다 — 확률은 1,024분의 1이지만 불가능하지 않은 사건입니다. 열한 번째 던지기에서 앞면이 나올 확률은? 여전히 50%입니다. 동전에는 기억이 없습니다. 복권 기계도 마찬가지입니다.

그럼 왜 빈도 차트를 공개하는가?

데이터 자체가 흥미롭고, 무작위가 어떻게 생겼는지 이해하는 것 자체가 가치 있는 기술이기 때문입니다.

빈도 차트는 다음과 같은 질문에 답합니다.

  • 이 복권의 지난 1년, 2년, 5년 동안 자연 분산은 얼마나 울퉁불퉁한가?
  • 관측된 빈도가 통계적으로 유의한 방식으로 균일에서 벗어나는가? (평판 있는 복권에서는 거의 없습니다.)
  • 특정 쌍의 재등장 분포는 어떻게 생겼는가?
  • 연속된 숫자가 얼마나 자주 등장하는가? 이전 추첨과 동일한 숫자가 반복되는 경우는?

이것들은 과정에 관한 질문이지 다음 결과에 관한 질문이 아닙니다. 답은 재현 가능하고, 검증 가능하며, 통계를 즐기는 사람에게는 — 진정으로 흥미롭습니다. 당첨자를 고르는 데 도움이 되지는 않지만, 패턴과 우연을 구분하는 데는 도움이 됩니다.

정직한 복권 분석의 모습

위의 구분을 바탕으로, 데이터 플랫폼이 정직하게 제공할 수 있는 것은 다음과 같습니다.

투명한 방법론. 모든 차트는 공개 데이터로부터 재현 가능해야 합니다. 플랫폼이 데이터의 출처나 계산 방식을 알려주지 않는다면, 그 차트를 정보가 아닌 오락으로 취급하십시오.

균일 분포 기준선. "균일은 어떻게 생겼는지"를 보여주는 참조선이 없는 빈도 차트는 누락에 의해 오도하는 것입니다. 기준선이 없으면 자연 분산은 극적으로 보이지만, 기준선 대비로 보면 보통 노이즈처럼 보입니다.

명시적 기간. 20회차에 걸친 "핫 넘버" 분석은 20회차에 대한 것을 말해 줍니다. 500회차에 걸친 것이라면 기저 분포에 더 가까운 것을 말해 줍니다. 기간을 공개하지 않는 플랫폼은 가장 중요한 변수를 숨기고 있는 것입니다.

예측 없음. 이것이 명확한 경계입니다. 플랫폼은 무슨 일이 일어났는지 기술하고, 왜 그런 일이 일어났는지 설명하며, 무작위가 실제로 어떻게 움직이는지 보여줄 수 있습니다. 다음에 무엇을 플레이할지 알려주는 순간, 그것은 분석을 떠나 다른 무언가가 됩니다.

데이터로 할 수 있는 일

복권 통계를 즐긴다면, 해볼 만한 것들이 있습니다.

  • 분산을 연구하세요. 복권 하나를 골라 지난 500회차를 살펴보고, 숫자들에 얼마나 많은 자연 분산이 있는지 보십시오. 무작위 과정이 실제로 얼마나 제멋대로 보이는지에 대한 직관이 생깁니다.
  • 복권을 비교하세요. 5/69 추첨은 6/49와 다르게 동작합니다 — 하나가 더 핫해서가 아니라 표본 공간이 다르기 때문입니다. 두 복권을 비교하면 조합론을 빠르게 배울 수 있습니다.
  • 자신의 직관을 검증하세요. "40 이상의 숫자는 덜 나온다"라고 믿는다면, 데이터를 확인하세요. 보통 틀릴 것이고, 구체적으로 틀리는 것이 확률에 능숙해지는 방법입니다.
  • 다른 영역에서도 도박꾼의 오류를 피하세요. 복권 데이터에서 이것을 명확히 보게 되면, 스포츠 해설, 투자 조언, 기상 예보 어디서든 알아차리기 시작할 것입니다. 전이 가능한 기술입니다.

결론

복권 데이터는 진정으로 유용합니다 — 확률을 이해하는 데, 무작위가 어떻게 움직이는지 보는 데, 그리고 직관적으로 매력적인 헛소리를 걷어내는 데. 당첨 번호를 고르는 데는 유용하지 않습니다. 그 어떤 데이터도 그것에 유용할 수 없습니다. 추첨은 무작위이며, 무작위라는 것이 바로 요점입니다.

즐긴다면 복권을 재미로 하십시오. 통계는 있는 그대로 받아들이십시오: 무작위 과정이 실제로 어떻게 움직이는지를 들여다보는 창, 그리고 대부분의 사람들이 예상하는 것보다 더 흥미롭고 더 반직관적인 창 말입니다.

그리고 어떤 플랫폼이 어떤 숫자를 플레이하라고 — 확률적으로, 자신 있게, 만족 보장과 함께 — 말한다면, 무작위가 무엇을 뜻하는지 기억하고 그 탭을 닫으십시오.