우연을 믿지 않는다는 것의 의미 - 설문조사, 표본오차, 오버피팅
2023/01/26
오버피팅 (overfitting) 이라는 말은 통계학/기계학습에서 광범위하게 사용되는 기본 개념입니다. 하지만 기술적인 자세한 설명을 하려고 이 개념을 들고 온 건 아닙니다. 그리고 한국어로는 과적합이라고 옮기지만 이 글에서는 그렇게 옮기지 않겠습니다. 어감이 잘 살지 않아서요. 오버피팅에 관해서는 제가 예전에 쓴 글도 있기는 한데 여기서는 좀 다른 데 초점을 맞추었습니다. 어떤 분들은 통계학, 데이터 사이언스가 현실 사회를 설명하는 데 도구적 역할 외의 무슨 역할을 할 수 있느냐고 생각하실 수 있는데, 오늘 제가 그런 생각을 깨 드리겠습니다. 오버피팅이야말로 한국 사회를 관류하는 일종의 정신 같은 게 아닐까 합니다. 사실 한국만 그런 것도 아닐지도 모르지만요.
(들어가기에 앞서 이 글은 어떤 정치세력을 지지 또는 비판하기 위해 쓴 것이 전혀 아님을 분명히 밝혀 둡니다.)
얼마 전 이런 신문 기사를 보았습니다. 사실 아래 기사는 한 예시일 뿐 이런 사례는 무수히 많이 있습니다.
그래서 대체 뭐가 얼마나 떨어졌는지 궁금해서 기사를 클릭해 봤더니 아래와 같은 도표가 있었습니다.
그러니까 39.3% 에서 38.7%로 0.6% 떨어진 것을 가지고 또 하락 이라고 쓴 것입니다. 뭐 여기까지는 좋습니다. 여론조사기관에서 수집한 자료가 하락한 것 자체는 사실이니까요. 그런데 문제는 본문에 이런 표현이 등장한다는 것입니다.
“리얼미터는 이번 조사 결과를 "UAE, 다보스포럼 순방...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
본문에도 동의하지만, 매 주차 지지율을 측정하고 기사를 내야 하는 언론사 입장에서 정교하게 분석하기는 어려워 보이기도 하네요. 다른 요인을 정교하게 통제하고 분석하면 다음 다다음 지지율이 공표될 것 같은.
소수 표본을 기준으로 추론하기, 결과를 가지고 끼워 맞추기.. 종종 스스로의 판단이 의심스러울 정도로 우리는 어쩔 수 없이 인지 오류를 가지고 사는 것 같아요.
심지어 거짓패턴이라는 것을 인식하고 있으면서도 크고 넓어서 관찰하기 어려운 펜로즈 타일이라는 말로 사람들을 설득하는 꼴도 종종 봅니다. 옳다고 믿는 신념을 전달하기 위해서 좌표축을 건드리고 오차범위를 확대해석하는 경우만 줄어들어도 세상이 지금보다는 덜 어지러울 것 같아요.
언론법이 바뀌었는지 어쨌는지 요즘은 신뢰구간이랑 표본크기 표기를 안 하기도 하더라고요. 왜 없앴는지 모르겠어요...
본문에도 동의하지만, 매 주차 지지율을 측정하고 기사를 내야 하는 언론사 입장에서 정교하게 분석하기는 어려워 보이기도 하네요. 다른 요인을 정교하게 통제하고 분석하면 다음 다다음 지지율이 공표될 것 같은.
심지어 거짓패턴이라는 것을 인식하고 있으면서도 크고 넓어서 관찰하기 어려운 펜로즈 타일이라는 말로 사람들을 설득하는 꼴도 종종 봅니다. 옳다고 믿는 신념을 전달하기 위해서 좌표축을 건드리고 오차범위를 확대해석하는 경우만 줄어들어도 세상이 지금보다는 덜 어지러울 것 같아요.
언론법이 바뀌었는지 어쨌는지 요즘은 신뢰구간이랑 표본크기 표기를 안 하기도 하더라고요. 왜 없앴는지 모르겠어요...