핫 앤 콜드 넘버의 미신

대부분의 복권 참여자에게 숫자가 "핫" 하거나 "콜드" 할 수 있는지 물어보면, 놀라울 정도로 많은 사람이 그렇다고 대답합니다. 일부는 자신이 즐겨 하는 현지 복권에서 어떤 숫자가 핫한지 자신 있게 말해 줄 것입니다. 어떤 사람은 핫 넘버를 플레이한다고 하고, 어떤 사람은 콜드 넘버를 플레이한다고 합니다. 그리고 두 그룹은 종종 똑같은 데이터를 근거로 삼습니다.

이것은 확률의 세계에서 직관과 현실이 서로 정반대 방향으로 작용하는 가장 명확한 사례 중 하나입니다. 핫 앤 콜드라는 틀은 너무나 자연스럽게 느껴져서 상식처럼 보입니다. 하지만 그것은 틀렸습니다. 이 글은 왜 그런지 — 그리고 왜 이 믿음을 버리기가 그토록 어려운지 — 에 관한 것입니다.

핫과 콜드의 의미

대부분의 복권 맥락에서 "핫" 넘버란 최근 일정 기간의 복권 번호 빈도에서 평균보다 자주 등장한 숫자를 말합니다. "콜드" 넘버는 평균보다 덜 등장한 숫자입니다. 그 기간은 최근 20회차일 수도 있고, 100회차일 수도 있으며, 지난 1년간일 수도 있습니다. 정의가 제각각이라는 점 자체가 문제의 일부입니다.

이 기본 틀에서 두 가지 정반대의 조언이 자라납니다.

핫 넘버를 플레이하라: 흐름이 좋으니 그 모멘텀을 따라가라.
콜드 넘버를 플레이하라: 오래 나오지 않았으니 곧 나올 차례다.

두 집단은 같은 데이터를 보면서 정반대의 결론을 내립니다. 통계에서 이런 일이 벌어진다면, 그것은 대개 틀 자체가 잘못되었다는 신호입니다.

통계학의 답

진정으로 무작위인 복권 추첨 — 본질적으로 현대 주요 복권은 모두 이에 해당합니다 — 에서는 과거의 빈도가 미래의 빈도에 영향을 주지 않습니다. 공은 최근에 어떤 공이 뽑혔는지 기억하지 않습니다. 기계는 이력을 추적하지 않습니다. 매 추첨은 동일한 기저 확률을 가진 새로운 무작위 사건입니다.

이것은 이론적 주장에 그치지 않습니다. 규제 기관이 적극적으로 검증하는 성질입니다. 복권사는 추첨이 독립적인지 확인하기 위해 추첨 기계에 대해 광범위한 통계 검사를 실시합니다. 만약 독립적이지 않다면, 해당 기계는 인증을 통과하지 못해 사용되지 않을 것입니다.

최근 기간에서 어떤 숫자가 기대치보다 자주 등장했다면, 가능한 경우는 오직 세 가지뿐입니다.

무작위 분산. 유한한 표본에서 무작위 과정의 결과는 결코 완벽하게 균일하지 않습니다. 일부 숫자는 순전히 우연으로 평균을 웃돌게 됩니다. 20회차 기간에서 이 분산은 매우 극적입니다 — 어떤 숫자는 전적으로 우연에 의해 3~4번 등장하거나 한 번도 등장하지 않을 수 있습니다.
측정 오류. 데이터 입력 실수, 추첨 귀속 오류, 또는 차트 로직의 버그. 드물지만 배제해 볼 가치가 있습니다.
추첨의 실제 편향. 기계에 특정 숫자에 유리한 미세한 결함이 있는 경우. 평판 있는 복권에서는 극히 드물며, 과거에 발생했을 때는 적발되어 해당 복권이 중단되었습니다.

사람들이 보는 핫/콜드 패턴은 사실상 전부 1번으로 설명됩니다. 2번과 3번은 예외적인 경우입니다.

왜 설득력 있게 느껴질까

수학이 이렇게 명확한데도 왜 핫/콜드 틀이 계속 남아 있을까요? 그것은 복권 통계가 요구하는 몇 가지 특정 능력에 인간의 직관이 취약하기 때문입니다.

우리는 공격적으로 패턴을 찾습니다. 우리의 뇌는 존재하지 않는 패턴조차 찾아내도록 조율되어 있습니다. 다섯 번의 추첨에서 어떤 숫자가 세 번 등장하는 것은 무작위성과 충분히 양립할 수 있는 결과임에도 불구하고 패턴처럼 인식됩니다.

우리는 무작위 군집화를 과소평가합니다. 진정한 무작위 수열은 사람들이 예상하는 것보다 훨씬 더 뭉쳐 보입니다. 누군가에게 "무작위" 동전 던지기 수열을 적어 보라고 하면, 그들은 앞면과 뒷면을 지나치게 균등하게 배치할 것입니다. 실제 무작위에는 연속된 연속이 있고, 그 연속은 무작위처럼 느껴지지 않습니다.

우리는 히트는 기억하고 미스는 잊습니다. 지난달 핫 넘버를 플레이해서 그중 두 개가 등장했다면 그 사실은 뇌리에 남습니다. 반면 나오지 않았던 세 달은 기억에서 희미해집니다. 이것이 확증 편향이며, 복권 통계는 그 전형적인 환경입니다.

우리는 작은 표본을 지나치게 신뢰합니다. "최근 스무 번의 추첨에서 세 번 나왔다"는 말은 강력한 증거처럼 느껴집니다. 하지만 그렇지 않습니다. 그렇게 작은 표본 크기에서는 이항 분포의 분산이 넓습니다. 직관적으로는 표본이 커 보이지만, 통계적으로는 거의 정보를 담고 있지 않습니다.

구체적인 예시

분산을 확인하는 구체적인 방법이 있습니다. 6/49 복권을 상상해 봅시다. 그리고 최근 20회차만 고려해 보겠습니다. 각 추첨은 49개 중 6개를 선택하므로, 특정 숫자 하나가 한 회차에 등장할 확률은 6/49 ≈ 12.2%입니다.

20회차에 걸쳐 각 숫자는 평균 약 2.4번 등장할 것으로 기대됩니다. 하지만 이는 무작위 과정이므로 실제 횟수는 변합니다. 특정 숫자에 대해 다음과 같이 등장할 확률은:

0번: 약 7.5%
1번: 약 21%
2번: 약 27%
3번: 약 22%
4번: 약 13%
5번 이상: 약 9%

어떤 20회차 기간에서든, 49개의 숫자가 위의 결과들에 걸쳐 분포할 것입니다. 평균적으로 그중 4~~5개는 4번 이상 등장하고, 3~~4개는 한 번도 등장하지 않습니다. 가장 많이 등장한 것들을 골라 "핫"이라고 부른다면, 언제나 그런 숫자들을 찾을 수 있습니다 — 수학이 그것을 보장합니다.

기간을 열 번의 추첨만큼 앞으로 옮겨 보십시오. 핫 넘버는 거의 확실히 동일하지 않을 것입니다. 그들은 핫했던 것이 아니라, 단지 분산의 운 좋은 쪽에 있었을 뿐이며, 분산은 지속되지 않습니다.

"곧 나올 차례" 라는 틀도 똑같이 잘못되었습니다

거울에 비친 것과 같은 논리 — 콜드 넘버가 곧 나올 차례라는 주장 — 는 도박꾼의 오류라고 하며, 똑같이 잘못되었습니다. 50회차 동안 등장하지 않은 숫자라고 해서 "곧 나올" 리 없습니다. 그 숫자가 다음 추첨에서 나올 확률은 50회차 전과 정확히 같으며, 이는 다른 모든 숫자의 확률과도 정확히 같습니다. 기계에는 "균형을 맞춰야" 할 의무가 없습니다.

이 오류가 직관적인 이유는 우리가 무작위 과정을 자기 교정적으로 여기기 때문입니다. 하지만 그렇지 않습니다. 무작위 과정은 기억이 없습니다. 무한한 추첨에서 빈도는 균일로 수렴하지만, 그것은 총 횟수에 대비하여 자연 분산이 줄어든다는 의미일 뿐이며, 어떤 힘이 개별 빈도를 평균 쪽으로 끌어당기는 것이 아닙니다.

미신을 걷어낸 데이터의 모습

핫/콜드 틀을 걷어내고 실제 복권 데이터를 보면 다음과 같은 것이 보입니다.

숫자들은 기대값 주위에서 기대되는 만큼의 분산으로 변동합니다.
긴 기간에 걸쳐 빈도는 점점 더 균일에 가까워집니다.
짧은 기간에서는 무작위성과 완전히 양립하는 극적으로 보이는 편차가 나타납니다.
한 기간의 "핫" 넘버는 다음 기간의 "핫" 넘버가 되는 경우가 거의 없습니다.

이것은 지루한 결과가 아니라 — 오히려 잘 설계된 무작위 과정의 특징입니다. 만약 핫 넘버가 실제로 지속된다면, 그것은 기계가 고장났다는 증거가 될 것입니다.

직접 확인하는 방법

복권의 과거 데이터에 접근할 수 있다면, 한 시간도 안 걸리는 간단한 검사를 해볼 수 있습니다. 어떤 기간(예: 최근 50회차) 동안 가장 자주 뽑힌 숫자 상위 10개를 추출합니다. 그런 다음 그다음 50회차를 보고 그 "핫" 넘버들이 어떻게 수행했는지 확인합니다.

핫/콜드 틀이 실제라면 그 숫자들이 계속해서 평균을 상회해야 합니다. 하지만 실제로 보게 되는 것은 그 숫자들이 기대값으로 회귀하는 모습입니다 — 때로는 조금 높게, 때로는 조금 낮게, 모두 정상 분산 범위 안에서입니다.

이 검사는 무작위성에 대한 직관을 키우는 가장 명확한 방법 중 하나입니다. 그리고 그것은 일반화됩니다: 무작위 데이터에서 예측 가능한 패턴이 있다는 주장은 거의 전부 동일한 검사에서 실패합니다.

우리가 빈도 데이터로 하는 일

LottoWise에서는 우리가 추적하는 모든 복권에 대해 빈도 차트를 게시합니다. 그 데이터가 진정으로 흥미롭기 때문입니다 — 그것은 무작위 과정이 어떻게 작동하는지를 보여주는 창이며, 대부분의 사람들의 직관은 그 작동 방식에 대해 틀렸습니다. 우리가 하지 않는 일은 숫자를 "핫" 또는 "콜드" 추천으로 순위 매기는 것입니다. 저희는 플레이할 숫자를 추천하지 않습니다. 정직하게 그렇게 할 방법이 없기 때문입니다.

빈도 데이터에서 도출한 "추천 픽" 목록을 제공하는 복권 분석 플랫폼을 본다면, 그들은 수학을 오해하고 있거나, 수학이 맞는지 신경 쓰지 않는 청중을 대상으로 마케팅을 하고 있는 것입니다. 어느 쪽이든 결과는 동일합니다: 그 픽들은 무작위보다 나을 게 없습니다.

결론

핫 앤 콜드 넘버는 미신이지만, 이해할 만한 미신입니다. 무작위 과정은 의미 있게 느껴지는 패턴을 만들어내며, 인간의 직관은 그것을 있는 그대로 보도록 준비되어 있지 않습니다.

데이터는 여전히 유용합니다 — 확률을 이해하는 데, 자연 분산을 보는 데, "무작위"의 의미에 대한 미신을 걷어내는 데 말입니다. 다만 숫자를 고르는 데는 유용하지 않습니다. 그 무엇도 그렇지 않습니다. 추첨에는 기억이 없기 때문입니다.

복권을 즐긴다면 즐기시고, 통계를 즐긴다면 공부하십시오. 다만 이 두 활동을 혼동하지 말고, 수학적으로 — 명백하게 — 아무 가치도 없는 "핫 넘버" 목록에 대해 누군가 돈을 받아 가도록 두지 마십시오.