안녕하세요? 거북이 도도입니다. 오늘은 통계의 함정(게르트 기거렌처 외)을 읽고, 그 중 인상 깊었던 한 장을 이야기 나눠보려고 합니다.

1. 통계의 함정 96p. '고를레벤의 여아 감소'
2012년 독일의 언론에서 독일의 원자력발전소 주변에서 여아 출생률이 떨어지는 것을 주목했습니다. 특히 고블레벤 핵폐기물 저장소 부근에서 남아 대 여아 비율이 109대 100으로 심한 불균형을 이룬다는 것이었습니다. 뮌헨의 역학 전문가인 하겐 쉐르프 연구팀은 이에 원전에서 남아 출생 비율이 높은 것이 세상에 나오지 못하고 죽은 여아들 때문에 생긴 현상이라는 주장까지 나왔습니다.
2. 하지만 이러한 주장은 사실을 제대로 반영한 것이 아닙니다.
전 세계적으로 여아의 출생을 100으로 보았을 때, 남아의 비율은 102에서 109까지 분포합니다. 이 수치는 시간이 지나면서 국가들 대부분이 104에서 107까지 변화를 보이게 됩니다. 또한 남아의 출생 비율이 전체 사회 계층과 지역을 막론하고 균일한 것도 아닙니다. 부모의 소득, 어머니의 체중, 어머니의 나이, 형제자매의 수, 살충제로 인한 환경오염 등에 따라 오르기도, 떨어지기도 합니다. 대부분 남아 출생률의 변화는 우연한 산물이라고 봐야 합니다.
통계의 함정이란 많은 사람들, 심지어 통계학지도 쉽게 범할 수 있는 오류입니다. 기본적으로 통계를 통해서는 확률적인 결론밖에 내놓을 수 밖에 없고, 또한 다루는 범위가 커질수록 통제할 수 없는 통제 변수가 수없이 늘기 때문입니다. 게다가 굳이 오용이 아니더라도 특정 집단이 통계를 멋대로 이용해 억지 주장을 펴는 경우도 많습니다.
물론 논리적으로 올바른 통계적 추론의 경우에도 결과를 왜곡할 수 있는 편법은 얼마든지 있습니다. 통계 관련 종사자들 사이에서는 '원하는 결과는 그 어떤 결과라도 만들 수 있다.'는 것이 공공연한 비밀이라고 합니다. 대학원 시절 교수님께서 통계 프로그램은 '쓰레기를 넣어도 장미가 나온다'라는 말을 하셨는데, 내가 원하는 결과를 내기 위해 데이터를 누락하거나 조작할 수도 있고, 다른 통계 방법으로 접근해 나온 수치가 정당하다고 말하는 경우도 있다고 하셨습니다. 가장 정확하고 객관적일 것 같은 통계가 누군가의 주관에 의해 조작될 수 있다는 것은 통계가 가지고 있는 위험한 모순이라고 생각이 들었습니다.
3. 우리가 통계의 함정에 빠지는 이유
통계의 함정에 빠지게 되는 원인은 다양합니다. 너무 작은 표본에 기초해 결론을 내린 경우, 무응답 표본이 많은 경우, 장귀적인 표본을 통해 결론을 내린 경우, 매우 큰 표본에서 나타난 소수의 사례를 과대평가하거나 잘못된 인과관계를 추론하거나 집단의 특성을 개인에게 적용시키는 등 다양한 원인으로 인해 진실을 왜곡해서 보는 경우가 생깁니다.
우리는 단편적으로 눈에 보여지는 현상을 그대로 해석하려 합니다. 전 세계적으로 남아의 비율이 높음에도, 자연 상태에서 이온화한 방사선의 피해가 훨씬 큼에도, 고를레벤에 핵폐기물 저장시설이 들어서기 전에는 119명이라는 성비를 유지했음에도, 이러한 조건과 상황보다는 단순하게 보이는 것을 타당한 근거 없이 믿으려고 하는 것 같습니다.
이 구절을 읽으면서 저를 돌아보게 됩니다. 통계라는 단어가 주는 객관성과 타당성이 얼마나 위태로운 개념이고, 연구자의 주관성이 개입되어 얼마나 위험한 결과를 도출하게 되는지를 생각해 봅니다. 고를레벤의 이야기를 다시 한번 생각해 보면, 나 또한 객관적이고 냉철하게 판단하지 않았다면 원전 설치로 인해 여아들이 감소하게 된 것이라는 근거 없는 믿음을 가지지 않았을까 하며 반성해 보게 됩니다.
세상에 속이는 사람이 너무나 많습니다. 본인의 이득을 위해 또는 잘못된 신념으로 인해 똑같은 현상을 얼마든지 위험하게 만들어낼 수도 있습니다. 하지만 오용 사례를 접하고는 통계에 대한 무조건적인 불신에 빠져 무작정 표본의 수가 적다며 트집잡고 본다거나, 마음에 들지 않는 결론을 제시할 때는 밑도 끝도 없이 조작되었다고 주장하는 것 또한 위험한 생각입니다. 그렇기에 우리는 보여지는 단편적인 상황에 휩쓸리지 않고, 한번 더 객관적으로 생각해 보는 사고를 길러야 할 것 같습니다.