위로가기 버튼

대선 여론조사의 함정

등록일 2017-04-06 02:01 게재일 2017-04-06 18면
스크랩버튼
▲ 서의호<br /><br />포스텍 교수·산업경영공학과
▲ 서의호 포스텍 교수·산업경영공학과

최근 대선 여론조사 결과가 화제다.

“안철수 후보가 문재인 후보에게 양자대결에선 이기고 다자 대결에선 진다”는 여론조사 발표다.

양자대결에서는 이기는데 다자대결에선 진다면 이는 무슨 곡절일까?

몇 년 전 고려대 총장을 선출할 때도 비슷한 경우가 있었다. 현역 총장으로 매우 인기가 높았던 총장이 첫 라운드에서 탈락했다.

네거티브(Negative) 방식의 선출 방식 때문이었다. 질문은 “가장 총장이 되어서는 안 되는 후보를 뽑아라”로 하여 많은 표를 얻은 후보들을 먼저 탈락시키는 경우였다.

인기가 높은 후보일수록 절대로 안 된다는 고정 반대표가 많을 수 있다. 그래서 인기가 높았던 총장이 고정 반대표에 의해 탈락한 경우였다. 마찬가지로 문재인 후보의 경우 지지율이 30%를 상위하며 수위를 달리고 있지만 절대로 안 된다는 강성 반대표도 많다. 이러한 강성 반대표들이 결집하면 결국 양자대결에서 문 후보는 이기기 힘들다.

고려대가 채택하였던 방식을 대선에서 택한다면 문 후보가 가장 먼저 아웃될 수도 있는 것이 제도와 통계의 함정인 것이다.

사실 통계의 함정은 여기저기 있다.

최근 미국 대선에서 대부분의 여론 조사 기관과 언론이 클린턴의 완승을 예측했지만 뚜껑을 열고 보니 트럼프가 당선된 결과는 많은 유권자를 놀라게 했다.

사실 미국 대선에선 이보다 더한 예측을 뒤짚은 결과도 있었다. 20세기 미국에서는 `리터러리 다이제스트` 라는 잡지가 미국 대선 결과를 잘 예측해 꽤 유명해지고 인기를 끌었다고 한다. 그런데 단 한 번의 실수로 이 잡지는 폭락했는데 1936년 대선 예측이었다. 공화당의 랜던과 민주당의 루즈벨트가 대결한 결과를 정반대로 예측하면서 순식간에 몰락하게 됐다. 당시 1천만명 이상의 대규모 집단을 대상으로 조사한 결과가 틀린 이유는 바로 표본을 고른 표본추출 방법에 있었다.

리터러리 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론조사를 실시했는데 당시 미국상황에서 전화 가입자나 자동차를 소유한 사람들은 경제적으로 부유한 계층이었고, 이들 대부분이 공화당 지지자였다. 결국 국민 전체를 대표해야 할 표본을 공화당 지지계층을 중심으로 추출해 여론조사를 실시했기 때문에 나온 예측 오류였다. 통계에서 샘플링이 중요한 것은 지금 상황도 마찬가지다. 핸드폰이나 SNS로 진행되는 여론 조사는 당연히 젊은층 의견을 더 많이 반영하게 된다. 이들이 핸드폰이나 SNS를 더 많이 사용하기 때문이다.

SNS에 들어가 보면 소위 진보로 분류되는 후보에게 실제 지지율보다 훨씬 더 많은 지지 댓글이 달리는 걸 본다. 그건 젊은층이 SNS를 많이 사용하기 때문이다.

지금 소위 진보로 분류되는 후보가 압도적 우세를 보이는 것도 이러한 샘플링 오류에 기인할 수도 있다. 통계에서 평균 오류도 심각한 경우가 많다. 국민소득이 높은 나라에서 빈곤층이 여전히 존재하는 건 평균 오류이다. 그래서 중앙값을 쓰기도 하지만 중앙값도 한 쪽에 몰려있는 데이터를 대표하기 힘들다,

대선에서 종종 발표되는 캐스팅 보우트(Casting Vote)를 쥐고 있다는 연령층이나 지역 유권자의 평균 지지율도 오류를 보이는 경우가 종종 있다.

샘플링, 답변경향, 평균의 오류 등이 얽히는 대선 예측을 너무 과신해서는 안 된다.

사표를 방지하기 위한 투표도 위험한 것이다. 독일 도르트문트 공대 통계학과 교수 발터 크래머가 쓴 `벌거벗은 통계`라는 책에서 각종 숫자와 데이터를 가지고 만들어진 통계가 어떻게 사람들을 현혹시키고, 잘못된 행동을 이끄는지를 적나라하게 보여주며 통계로 거짓말을 쉽게 할 수 있다고 말한다.

그러면 유권자들이 취해야 할 정답은 무엇일까? 결국 정답은 “소신대로 투표한다”가 정답일 것이다.

자기가 지지하는 후보에게 소신대로 투표하는 것이 여론조사의 오류에 영향을 받지 않는 길일 것이다.

서의호칼럼 기사리스트

더보기
스크랩버튼