미스터리한 숫자, 여론조사 표본오차 "3.1%" 에 숨겨진 비밀 (부제: 님하 그 표본오차를 그렇게 쓰지 마오)
2023/02/10
뉴스와 신문지상에 등장하는 여론조사에 꼭 등장하는 항목이 있습니다. “본 설문조사에는 …명을 대상으로 …방식으로 진행되었으며 표본오차는 3.1% 입니다.” 여기서 3.1%라는 숫자에 크게 관심을 갖고 보신 분은 별로 없겠지만, 뭔가 이상하지 않습니까? 설문조사마다 표본오차가 거의 같으니 말입니다. 이상하게 3.1%에서 크게 빗나가는 법이 없죠. 여기서 통계학에 조금 더 조예가 있으신 분들이라면 표본오차가 표본 크기에 좌우된다는 것을 알고 계실 테니, 설문조사마다 1,000명 안팎을 대상으로 조사를 한다면 표본오차도 대략 비슷할 것이라는 점은 눈치채셨을 것입니다. 그런데 왜 하필 그 값이 3.1% 인지까지는 아시는 분이 많지 않으리라 생각합니다. 그래서 이 글에서는 그에 대한 설명을 좀 하고요.
사실 이 기사 (JTBC 2023년 2/8 보도, 엇갈린 국힘 당대표 후보 여론조사…김 45.3%, 안 30.4% vs 안 35.5%, 김 31.2%) 때문에 이 글을 쓰게 되었습니다. 기사 본문을 보면 다음과 같은 표현들이 등장합니다.
"...조사에 따르면 응답자 45.3%는 '차기 국민의힘 당대표로 누가 선출되는 것이 좋겠냐'는 물음에 김 후보라고 답했습니다. 직전 조사(지난달 31일~지난 1일) 때보다 9.3%포인트 오른 숫자입니다.
안 후보라는 응답은 30.4%로 같은 기간 12.9%포인트 내렸습니다. 두 후보 간 격차는 14.9%포인트로 오차범위 밖입니다..."
안 후보라는 응답은 30.4%로 같은 기간 12.9%포인트 내렸습니다. 두 후보 간 격차는 14.9%포인트로 오차범위 밖입니다..."
“…두 후보 간 격차는 4.3%포인트로 오차범위 안입니다…”
마지막 문장은 특히 눈에 띕니다. 4.3%가 오차범위 안이라고 하니까요. 그래서 기사 마지막을 보니 한길리서치 조사는 표본오차가 2.8% 포인트라고 하니 약간 착오가 있지 않았나 싶기도 합니다. 그런데 사실 여기에도 함정이 있습니다. 이건 나중에 다시 이야기하기로 하고요. 아무튼 이 기사에서는 각 설문조사에서 발표된 오차범위를 그대로 사용한 것으로 보입니다. 그런데 결론부터 말씀드리면 후보 간 지지율 격차에 대해 설문조사의 표본오차를 그대...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
2조 8천억 가.량. 손실 이라는 기사에서, 2조 8천 1억과 2조 8천 8백억을 같은 2조 8천억 가량 손실로 이야기하는 경우도 있어서..
799억 정도는 무시해도 되는 값으로 취급하는 경우도 있더군요.😁