책이야기

[서평] 통계적으로 생각하기 - 생활속에서 생각해보는 통계에 대하여

어진동그라미 2022. 9. 8. 15:59

복잡하고 혼란스러운 세상, 이 불규칙한 현상계의 본질을 관통하는 규칙이 존재한다.
25년전 군대에서 읽었던 "마이클 크라이튼"의 소설 "쥬라기 공원"에 나오는 "카오스 이론"에 대한 이야기이다. 도저히 규칙을 찾을 수 없는 혼돈의 현상계인 듯 보이지만, 여기에는 우리 모두가 수긍할만할 명확한 규칙이 존재한다는 말이다.
겨울 하늘에 눈보라가 펑펑 내린다. 눈송이 하나하나를 살펴보라. 혼란스럽기 짝이 없다.
이것이 바로 혼돈의 현상계이다. 그러나 여기에 분명한 규칙이 존재한다. 눈은 반드시 땅에 떨어진다는 규칙 말이다. 핵심을 뚫는 진리가 바로 이것과 같다. 사소하고 당연하지만 우리는 자칫 그 규칙을 바라보지 못한다.

"북경에서 나비가 날면 뉴욕에 허리케인이 분다."
카오스 이론을 대표하는 문장이다. 결과로 나타난 사실에는 반드시 원인이 있다는 말이다. 작은 사건 하나가 어마어마한 결과를 낳는다는 "나비 효과"라고도 불리운다.
뉴욕에 허리케인이 발생하기 위해서는 많은 요소가 있어야 한다. 그 가운데 분명 그해 북경에서 있었던 나비의 날개짓도 포함되었을 것이다. 만약 그 날개짓이 없었다면 적어도 그 시간에 그 곳에 허리케인이 불지 않았으리라.
오래전 기억이라 불문명하지만 소설에서는 카오스이론의 규칙성에 촛점을 맞추지는 않았었다. 의도했던 일들이 예상치 못한 작은 변수로 인해 엄청난 상황을 야기할 수 있으며, 예측하지 못할 불규칙성으로 일어난 사건들로 이야기가 이어졌던 것 같다. 그때는 빅데이터라는 용어자체가 없었을때인데 알고보니 카오스이론이 통계였었다니.

빅데이터의 세상에서 흐름 추론하고 미래를 예측하는 통계학.
누구나 수많은 데이터를 발생하고 있는 빅데이터 세상에서 그 의미없는 데이터를 유의미하게 엮어낼 수 있는 것이 바로 통계이다.
통계학은 사람들의 의도를 파악하고 현실에 흐르는 데이터를 가공하여 우리에게 다가올 미래를 예측한다. IT기술이 발달함에 따라 데이터를 처리하는 방법 또한 발달하였고, 이제는 통계학이 경제학, 심리학, 기상학 등 자연과학 인문과학 등을 아우르는 학문이 되었다.

저자는 사실이라고 하는 데이터에 근거해서 추론하는 방법, 데이터 사용법과 통계적으로 생각하는 방법에 대해 개념적인 측면에서 우리가 접하고 있는 현실 문제에 근거한 몇가지 개념정리만 하고 있다.
우리가 인식하지 못하는 사이 얼마나 수학적인 통계학적인 상황에 우리가 놓여있는지를 재미있는 사례를 들어 보여준다.

얼마전 TVN의 "어쩌다 어른"라는 프로그램에서 포항공대 박형주 교수는 백의의 천사 나이팅 게일이 수학천재라고 말한다. 나이팅게일은 지금으로 말하면 뛰어난 통계학자였다는 것이다. 그는 합리적 추론으로 자기에게 주어진 문제의 원인을 파악하여 문제점을 해결했다. 나이팅게일은 1854년 크림전쟁이 일어나자 야전 병원을 열고 그곳에서 아군과 적군을 가리지 않고 부상당한 병사를 치료해주었다. 당시 크림전쟁에서 전사자중에서 영국 군대 병원의 위생상태가 너무 열악해서 많은 부상병들이 병원이 더러워 오히려 상처가 악화되어 사망률이 더 높은 것을 알아내고 병원의 환경을 개선해야 한다고 주장했다. 나이팅 게일의 세상을 바꾸기 위한 현상파악과 합리적 추론이 놀랍기만 하다.
나는 과연 내가 맡고 있는 곳에서 통계를 얼마나 적절히 사용하고 있을까?

<통계학중에서 딱 세가지 개념만 설명하기>

- 선택편향
왜 사장님만 모를까?
맛있는 복숭아를 고르기 위해서 우리는 복숭아 상자에서 몇 개의 복숭아를 골라 상자 전체 상태를 추론한다. 그런데 만약 샘플링하는 과정에서 좋은 상태의 복숭아만 우리에게 제공된다면 신뢰할 수 있는 결과가 나올까?
어느 회사에 사장님은 회사의 좋은점과 문제점을 보고 받아 이를 개선하고 싶어 한다고 할때 익명이 아닌 기명으로 의견을 수렴하면 과연 사장님은 이를 통해 회사를 개선해 나갈 수 있을까?
어느 학교 강의시간에 교수님의 말이 잘 들리냐고 물어보았다. 그때 여러명이 잘 들린다고 했다. 그래서 교수는 문제가 없다고 판단하고 강의를 진행했다. 말이 들리지 않는사람은 그 말에 대답할 수 있었을까? 판단의 근거에 일부요인이 제외되는 현상 이것이 바로 선택편향이다.

- 내성성
모든 상관관계가 인과관계를 나타내지는 않는다.
우리는 상관관계가 있는 두 사실을 인과관계가 있는 것으로 착각한다.
아이스크림 판매율과 익사율은 서로 상관관계가 있다. 아이스크림 판매율이 높아지면 익사율도 증가한다.
그렇다고 아이스크림을 먹는 아이들이 익사할 확률이 높다는 것 아니다.
단지 기온이 높아서 아이스크림도 사먹고 물놀이도 하기 때문에 공교롭게도 두 발생율이 같이 증가한 것일 뿐이다.

- 베이즈 정리
어떠한 증거 사건이 주어졌을때 우리의 가설이 맞을 확률이 매우 낮더라도, 다른 가설들이 맞을 확률이 더욱 낮다면 우리의 가설은 상대적으로 일어날 확률이 더 높아지게 된다.
불가능을 제거하고 나면, 남은 것이 아무리 일어날 것 같지 않은 것이라도 그것이 진실이다. - 설록 홈즈

(이 리뷰는 현암사에서 도서를 제공받아 작성되었습니다.)