우리는 아직 통계학의 문 앞에 있다.
수학 문제가 풀렸을 때 느끼는 짜릿한 쾌감이 좋다.
이 세상의 원리와 돈의 흐름, 사람들의 행동을 숫자와 공식으로 표현할 수 있다. 수학은 즐겁고 아름다운 분야다. 하지만 세상에는 수학을 싫어하는 사람이 많다. 공식을 보면 지레 겁을 먹고 숫자가 나열되면 ‘하나도 모르겠다’고 말한다. 그렇게 숫자를 싫어하는 사람들이 통계학에 대해 알고 싶을 때, 무엇을 어떻게 전하면 통계학 일부라도 알게 할 수 있을지 고민하면서 이 책을 썼다. 숫자를 보고 의욕을 잃지 않도록 공식을 이해할 수 없어서 통계학 배우기를 포기하지 않도록 정말 하나하나 곱씹어가며 설명했다. 독자 여러분의 정신을 어지럽히는 수학적 표현이나 기호도 최소한도로 기재했다. 이 책을 다 읽은 여러분은 지금 통계학이라는 학문의 문 앞에서 문고리를 잡고 서 있는 상황이다. 아직 우리는 입구에 있는 것이다. 그 문을 열면 미지의 세계를 예측하거나 아직 보이지 않는 미래를 상정할 수 있는 아름다운 세상이 펼쳐진다. 그러나 그 아름다움을 이해하려면 수학을 알아야 한다. 수학과 마주할 각오가 있다면, 그 문을 열고 들어가자. 좌절할 때도 많겠지만 그래도 얻는 것이 있을 것이다. 각오가 서지 않는다면 여기까지만 하자. 그래도 충분하다. 나는 ‘이유를 모르겠다’며 포기하는 것을 좋아하지 않는다. 하지만 수학만큼은 예외다. 모르는 사람은 모르기 때문이다. 수학은 어느 정도 재능이 필요한 분야이다. ‘모르겠다’는 현실을 받아들이는 것도 중요하다.

전부를 조사하지 않아도
전체상을 어느 정도 알 수 있다.
전수 조사를 하지 않아도 샘플 수가 많으면 실제 시청률을 알 수 있을까? 샘플 수만 충분하면 통계학을 이용해서 전체상을 완벽하게 파악할 수 있을까? 엄밀하게 말하자면 그렇지 않다. 샘플 조사와 전수 조사에는 아무리 해도 차이가 생기기 때문이다. 그 차이를 0으로 할 수는 없다. 그러나 통계학을 이용하면, “이 정도로 샘플을 모으면 실제 값과 ±1% 차이가 난다.” “이 정도로 샘플을 모으면 실제 값은 99% 범위 안에 들어간다.” 이 정도의 차를 알 수 있다.
다시 말해 전수 조사를 하지 않고 약간의 샘플 데이터만 있으면 전수 조사한 결과와 거의 비슷한 수치를 산출할 수 있다. 이것이 통계학이다. 그러면 한 번 생각해보자. 1800만 세대분의 데이터를 모은 경우와 겨우 900세대분만 모은 경우, 각기 계산해서 도출한 결과 값이 거의 같았다면? 1000세대를 조사한 경우와 900세대를 조사한 경우의 시청률 차이를 비교해봤더니 거의 차이가 없었다면? 굳이 돈과 노동력을 들여가며 방대한 데이터를 모을 필요가 없다. 그것은 낭비다. 통계학은 ‘이 낭비’를 깔끔하게 제거해준다.

공식은 외우지 않아도 된다.
그 대신 공식을 이해해야 한다.
히스토그램, 평균값, 분산, 표준편차, 정규분포, 이항분포, 중심극한정리……. 이 책에는 여러 가지 통계학 용어가 등장했지만, 그것을 외우지 못하겠으면 잊어버려도 된다. 사실 통계학, 나아가 수학 공식이나 용어는 일상생활과 전혀 상관이 없으므로 시간이 지나면 당연히 잊어버린다. 잊어버릴 줄 알면서도 그래도 외우려고 하는 사람은 내용을 이해하지 못하니까 통째로 외우려는 것뿐이다. 그 모습이 얼마나 어리석은지 깨닫지 못한다. 이것은 사실 생각하지 않는 행위나 마찬가지인데 말이다. 생각하는 능력은 기억력과 다르다. 기억은 시간이 지날수록 희미해지지만 생각은 우리가 살아있는 한 영구히 이어진다. 특히 수학적 사고는 보편적이고 우리 생활에 널리 적용할 수 있다. 수집한 데이터를 분석할 때 ‘분산’이라는 전문용어가 나오지 않아도, 공식을 잊어버렸어도, ‘평균에서 벗어난 데이터가 많으면 데이터는 들쭉날쭉 퍼진 모양이 된다’라고 이해하면 된다. 그것을 이해하면 ‘데이터와 평균값의 차이’가 데이터가 퍼진 정도를 생각할 때 필요한 요소라는 점도 알 수 있다. 생각하면 된다. 적어봐야 알 수 있다면, 적어보면 된다. 이 책에서 여러 번 ‘직접 써보면 된다’고 한 것은 종이에 적으면 이해할 수 있기 때문이다. 공식을 통째로 외우기 위해서가 아니다.
통계학은 ‘편향되지 않을 것’이 전제이다.

통계학은 적은 비용과 노동력으로 거의 정확한 전체상을 파악할 수 있다. 그런데 ‘거의 정확한’ 결과를 도출할 수 있는지는 샘플을 선택하는 방법에 달려 있다. 예를 들어 시청률 조사를 할 때, 그 집에서 사는 사람이 어느 방송을 보는지는 연령대나 가족 구성에 따라 다르기 마련이다. 그런데 샘플 대상을 20대 젊은이만 수집하거나 70대 이상인 고령자만 수집하면 편향된 결과가 나올 것이다. 즉, 샘플이 편향되면 정확한 결과를 낼 수 없다는 말이다. 그러므로 통계학자는 편향되지 않은 샘플을 추출하는 것을 무엇보다도 중시한다.