미스터리한 숫자, 여론조사 표본오차 "3.1%" 에 숨겨진 비밀 (부제: 님하 그 표본오차를 그렇게 쓰지 마오)

박준석
박준석 인증된 계정 · 데이터 사이언티스트입니다.
2023/02/10
뉴스와 신문지상에 등장하는 여론조사에 꼭 등장하는 항목이 있습니다. “본 설문조사에는 …명을 대상으로 …방식으로 진행되었으며 표본오차는 3.1% 입니다.” 여기서 3.1%라는 숫자에 크게 관심을 갖고 보신 분은 별로 없겠지만, 뭔가 이상하지 않습니까? 설문조사마다 표본오차가 거의 같으니 말입니다. 이상하게 3.1%에서 크게 빗나가는 법이 없죠. 여기서 통계학에 조금 더 조예가 있으신 분들이라면 표본오차가 표본 크기에 좌우된다는 것을 알고 계실 테니, 설문조사마다 1,000명 안팎을 대상으로 조사를 한다면 표본오차도 대략 비슷할 것이라는 점은 눈치채셨을 것입니다. 그런데 왜 하필 그 값이 3.1% 인지까지는 아시는 분이 많지 않으리라 생각합니다. 그래서 이 글에서는 그에 대한 설명을 좀 하고요. 

사실 이 기사 (JTBC 2023년 2/8 보도, 엇갈린 국힘 당대표 후보 여론조사…김 45.3%, 안 30.4% vs 안 35.5%, 김 31.2%) 때문에 이 글을 쓰게 되었습니다. 기사 본문을 보면 다음과 같은 표현들이 등장합니다.

"...조사에 따르면 응답자 45.3%는 '차기 국민의힘 당대표로 누가 선출되는 것이 좋겠냐'는 물음에 김 후보라고 답했습니다. 직전 조사(지난달 31일~지난 1일) 때보다 9.3%포인트 오른 숫자입니다.

안 후보라는 응답은 30.4%로 같은 기간 12.9%포인트 내렸습니다. 두 후보 간 격차는 14.9%포인트로 오차범위 밖입니다..."

“…두 후보 간 격차는 4.3%포인트로 오차범위 안입니다…”

마지막 문장은 특히 눈에 띕니다. 4.3%가 오차범위 안이라고 하니까요. 그래서 기사 마지막을 보니 한길리서치 조사는 표본오차가 2.8% 포인트라고 하니 약간 착오가 있지 않았나 싶기도 합니다. 그런데 사실 여기에도 함정이 있습니다. 이건 나중에 다시 이야기하기로 하고요. 아무튼 이 기사에서는 각 설문조사에서 발표된 오차범위를 그대로 사용한 것으로 보입니다. 그런데 결론부터 말씀드리면 후보 간 지지율 격차에 대해 설문조사의 표본오차를 그대...
박준석
박준석 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
24
팔로워 2.5K
팔로잉 31