통계의 두 얼굴
통계의 두 얼굴
  • 박현재 기자
  • 승인 2015.06.01 11:48
  • 댓글 0
이 기사를 공유합니다

<일러스트레이션=이영주 기자>

통계, 말만 들어도 어렵다고 생각하거나 거부감을 느끼는 사람이 많다. 하지만 통계는 학문연구뿐만 아니라 기업의 전략수립 등 다양한 방면에서 활용되는 등 우리의 생활 속에 깊숙이 들어와 있다. 1980년대 말 모토로라에서 처음 시작한 식스 시그마(Six sigma) 운동이 대표적이다. 식스 시그마 운동은 품질 혁신과 고객 만족 증대를 위해 시작됐다. 시그마(σ)라는 통계척도를 사용해 품질 수준을 정량적으로 평가하고 '100만분의 3.4'라는 불량률을 목표로 한다. 이 운동은 GE의 잭 웰치 회장을 통해 유명해졌으며, 우리나라 굴지의 대기업에서도 적용해 큰 효과를 거뒀다.

'세상을 바꾸는 기술'이라며 최근 각광받고 있는 빅데이터에서도 통계는 핵심적인 역할을 한다. 빅데이터는 통계를 활용해 엄청난 양의 데이터를 분석하고, 그것을 바탕으로 가장 합리적인 답을 유추해냄으로써 의사결정의 과학적 근거로 쓰인다. 빅데이터를 활용한 서울시 심야야간버스 정책은 큰 호평을 받았다. 서울시와 국내 한 통신사는 심야택시 승하차 데이터와 심야시간대 위치별 통화내역 데이터를 결합했다. 이 데이터를 이용해 심야시간 노선별·요일별 유동인구를 분석하고 최적의 심야버스 노선을 선정, 배치해 시민들의 불편을 해소했다.

이렇게 통계자료는 분야를 가리지 않고 끊임없이 생성된다. 많은 대학생 역시 언론이나 논문의 통계자료를 활용해 과제를 수행하거나 필요한 정보를 얻는다. 우리 대학교 임다솔(경영학 4) 학생은 "보고서나 발표를 준비할 때 통계자료를 적극적으로 이용하는 편이다"며 "통계가 가장 신뢰할 수 있는 자료인 것 같다"고 전했다.

스포츠, 마케팅, 국가정책… 통계의 '좋은 예'

잘 사용된 통계는 엄청난 결과를 만들어낸다. 그 대표적인 예가 2002년 미국 메이저리그(MLB)의 오클랜드 애슬레틱스 구단이다. 야구는 '통계의 스포츠'라고 불릴 만큼 통계와 밀접한 종목이다. 타율, 투구 수, 타점, 홈런 수 등 다양한 통계 기록을 이용해 선수를 평가하고 몸값을 매긴다. 팀 승리에 중요한 기록이 좋은 선수는 몸값 역시 높다.

▲ 프로야구에서는 사진과 같은 프로그램을 이용해 매순간 기록을 관리한다. <출처=KBS 스페셜>

오클랜드는 메이저리그의 구단 중에서 가난한 구단에 속한다. 돈이 없어 좋은 선수를 지키기도, 영입하기도 힘들다. 이런 상황에서 오클랜드의 빌리 빈 단장은 과감한 선택을 했다. 당시 좋은 선수의 척도로 통용됐던 홈런이나 타율보다 출루율을 중시한 것이다. 여기에는 다년간 쌓인 통계자료를 통해 선수가 가진 재능을 평가하는 '세이버매트릭스'가 이용됐다.

결과는 성공적이었다. 오클랜드는 시즌 초반에는 고전했으나 결국 20연승이라는 대기록을 세우며 플레이오프에 진출했다. 이 일화는 영화 <머니 볼>로 만들어져 많은 사람들에게 통계의 중요성을 알렸다.

통계는 국가정책을 결정하는 데도 중요한 역할을 한다. 현재 세계 최고의 공항이라 불리는 인천국제공항 역시 통계를 이용해 인천에 자리를 잡을 수 있었다. 수도권 신공항은 20여 년 전 이미 청주로 내정된 상황이었다. 이런 상황에서 인천에 또 하나의 공항을 건설하자는 말을 누구도 쉽게 할 수 없었다. 더구나 인천과 같은 해안도시에는 안개가 많이 껴 공항을 건설하기 부적절하다는 인식이 일반적이었다.

이러한 인식을 바꾸기 위해 박연수 전 인천시 도시계획국장은 통계를 활용했다. 그는 영종도와 용유도 주민에게 안개가 끼면 연락을 달라고 부탁했다. 1년여 간의 조사를 통해, 안개가 끼는 날이 김포공항보다 적다는 것을 밝혀냈다. 결국 인천시는 신공항 유치에 성공했다. 만약 적절한 통계자료가 없었다면 정부를 설득하지 못하고 인천국제공항 건설은 무산됐을 수도 있었다.

그러나 통계가 항상 좋은 방향으로만 기능하는 것은 아니다. 영국의 총리를 지냈던 벤자민 디즈레일리는 "세상에는 세 가지 종류의 거짓말이 있다"며 "거짓말, 새빨간 거짓말, 그리고 통계"라고 말할 정도로 통계를 신뢰하지 않았다. 이 말은 『왕자와 거지』로 유명한 미국의 소설가 마크 트웨인이 했다는 소리도 있지만 누가 했는지는 중요하지 않다. 이들은 왜 통계를 거짓말이라 폄훼하며 불신했을까.

오류·악용은 비난 부를 수도… 통계의 함정

통계가 가장 유용하게 쓰이는 곳 중 하나는 선거판이다. 사람들에게 어떤 후보자를 지지하는지 묻고 통계를 통해 당선자를 예측한다. 하지만 1936년 미국 대선에선 통계가 크게 잘못 사용됐다. 당시 선거는 재선에 도전하는 민주당 프랭클린 루스벨트 대통령과 캔자스 주지사였던 공화당의 알프레드 랜던 후보의 싸움이었다.

▲ 루스벨트는 선거인단 투표결과 523대 8이라는 압도적인 기록으로 당선됐다. <출처=www.historycentral.com>

당시 <리터러리 다이제스트>라는 인기 잡지사는 구독자 및 잠재독자 1,000만 명에게 설문조사를 실시했다. 237만 통의 답장이 왔고 이를 바탕으로 공화당의 랜던 후보가 57%의 지지율로 당선될 것임을 예측했다. 같은 해 갤럽은 일반 유권자를 대상으로 성별, 연령 등 단위별로 비율을 맞춰 5만 명의 표본을 추출한 뒤, 그들을 대상으로 설문조사를 벌여 루스벨트의 당선을 예측했다. 결과는 60% 이상의 득표율을 차지한 루스벨트의 승리였다.

<리터러리 다이제스트>가 간과한 것이 있다. 바로 표본 선정방법이다. 표본은 모집단 전체를 대표할 수 있어야 한다. 여기서 중요한 것은 표본에 선택될 확률이 모두에게 동일하게 보장돼야 한다는 것이다. 하지만 <리터러리 다이제스트>는 전화번호부, 자동차등록부 등을 이용해 설문조사를 실시했다. 당시 전화나 자동차를 소유한 사람은 대부분 부유층이었고, 이들은 공화당을 지지하고 있었다.

결국 잘못된 통계를 작성한 <리터러리 다이제스트>는 이 사건으로 망신을 당했고 폐간됐다. 반대로 갤럽은 세계적으로 유명한 여론조사 기관이 됐다. 표본의 선정은 통계의 기초이자 출발점이다. 표본을 잘못 선정하면 사실과 다른 결과가 나올 수 있고, 이런 통계자료를 사용하는 기관이나 사람에게 큰 위험요소로 작용할 수 있다.

숫자를 이용해 교묘하게 거짓말을 하는 경우도 있다. 미국 영화정보 사이트 '무비웹'에서는 2011년 기준으로 미국에서 지금까지 가장 매출을 많이 올린 영화 다섯 편으로 <아바타>, <타이타닉>, <다크 나이트>, <스타워즈 에피소드4>, <슈렉2>를 선정했다. 이 영화들은 전세계적으로 흥행을 했기 때문에 많은 사람이 이견을 가지지 않을 것이다. 하지만 여기에는 함정이 있다. 서로 다른 시기에 개봉한 영화의 표 값 차이를 무시한 것이다.

50여 년 전 물가와 지금의 물가는 상당히 많은 차이가 난다. 하지만 할리우드 영화사는 영화의 성공과 흥행을 강조하기 위해 이를 감안하지 않았다. 물가상승을 감안한 순위를 보면 1위는 1939년 개봉한 <바람과 함께 사라지다>로 나타났다. 매출액 1위였던 <아바타>는 14위로 조사됐다. 중요한 요소를 감안하지 않고 실제와 전혀 다른 결과를 도출해, 악용한 것이다.

'쓰레기를 넣으면 쓰레기가 나온다'는 말이 있다. 잘못된 자료를 이용하면 아무리 올바른 계산 방법을 사용하더라도 잘못된 결과가 나올 수밖에 없다. 『벌거벗은 통계학』(2013)의 저자 찰스 윌런은 책에서 "통계는 고성능 무기와 같아서 올바로 이용되면 유익하지만, 잘못 쓰이면 치명적인 재앙을 불러올 수 있다"고 밝혔다.

"좋은 통계 선별할 수 있어야"

통계는 과거부터 존재했지만 컴퓨터 기술과 함께 최근 급속도로 발전했다. 어려운 공식이나 과정들을 컴퓨터를 이용해 쉽게 해결할 수 있기 때문이다. 통계를 전문적으로 배우지 않은 사람도 시중에 나온 책을 통해 쉽게 프로그램을 작동하고 자료를 얻을 수 있다. 하지만 그렇게 구한 통계가 언제나 정확한 수치를 제공하진 않는다.

통계는 앞서 언급한 것보다 더 많은 함정을 가지고 있다. 이런 함정을 미처 파악하지 못하고 잘못된 수치를 얻을 수도, 원하는 값을 얻기 위해 누구나 쉽게 조작할 수도 있다. 잘못된 통계는 손쉽게 세상에 퍼질 수 있다. 그렇기 때문에 통계는 신중하게 사용돼야 한다. 한국갤럽 장덕현 부장은 "언론에 공개된 통계자료를 그대로 믿을 수 있는 시대는 지났다"며 "통계를 비판 없이 받아들이면 화제성 있는 숫자만 쫓게 되고 혼란만 더해진다"고 전했다.

스웨덴의 수학자 안드레예스 둥켈스는 "통계로 거짓말하기는 쉽지만 통계 없이 진실을 말하기는 어렵다"고 했다. 이 말처럼 통계는 양날의 검과 같다. 잘 사용하면 이용하는 대상에게 큰 이익을 주지만, 잘못 사용하면 치명적인 독으로 작용할 수 있다. 장덕현 부장은 "단지 숫자만 볼 것이 아니라 좋은 통계를 선별할 수 있어야 한다"며 "통계가 어떻게 작성됐는지, 신뢰할 수 있는 방법으로 측정된 통계인지 따져보는 것이 중요하다"고 전했다.

※ 참고자료
『새빨간 거짓말, 통계』, 대럴 허프, 2004, 더불어책
『빅데이터를 지배하는 통계의 힘』, 니시우치 히로무, 2013, 비전코리아
KBS 스페셜 <세상을 움직이는 숫자의 과학, 통계>, 2009


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 부산광역시 사하구 낙동대로550번길 37 (하단동) 동아대학교 교수회관 지하 1층
  • 대표전화 : 051)200-6230~1
  • 팩스 : 051)200-6235
  • 청소년보호책임자 : 권영성
  • 명칭 : 동아대학교 다우미디어센터
  • 제호 : 동아대학교 다우미디어센터
  • 등록번호 : 대전 가 00000
  • 등록일 : 2017-04-05
  • 발행일 : 2017-05-01
  • 발행인 : 이해우
  • 편집인 : 권영성
  • 동아대학교 다우미디어센터 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 동아대학교 다우미디어센터
ND소프트