우연을 믿지 않는다는 것의 의미 - 설문조사, 표본오차, 오버피팅

박준석
박준석 인증된 계정 · 데이터 사이언티스트입니다.
2023/01/26
오버피팅 (overfitting) 이라는 말은 통계학/기계학습에서 광범위하게 사용되는 기본 개념입니다. 하지만 기술적인 자세한 설명을 하려고 이 개념을 들고 온 건 아닙니다. 그리고 한국어로는 과적합이라고 옮기지만 이 글에서는 그렇게 옮기지 않겠습니다. 어감이 잘 살지 않아서요. 오버피팅에 관해서는 제가 예전에 쓴 글도 있기는 한데 여기서는 좀 다른 데 초점을 맞추었습니다. 어떤 분들은 통계학, 데이터 사이언스가 현실 사회를 설명하는 데 도구적 역할 외의 무슨 역할을 할 수 있느냐고 생각하실 수 있는데, 오늘 제가 그런 생각을 깨 드리겠습니다. 오버피팅이야말로 한국 사회를 관류하는 일종의 정신 같은 게 아닐까 합니다. 사실 한국만 그런 것도 아닐지도 모르지만요.
 
(들어가기에 앞서 이 글은 어떤 정치세력을 지지 또는 비판하기 위해 쓴 것이 전혀 아님을 분명히 밝혀 둡니다.)
 
얼마 전 이런 신문 기사를 보았습니다. 사실 아래 기사는 한 예시일 뿐 이런 사례는 무수히 많이 있습니다.
 
 
그래서 대체 뭐가 얼마나 떨어졌는지 궁금해서 기사를 클릭해 봤더니 아래와 같은 도표가 있었습니다. 
파이낸셜뉴스 2023년 1월 23일 기사, ["UAE의 적은 이란" 영향? 尹대통령 지지율 38.7%.. 또 하락], https://n.news.naver.com/article/014/0004959110?cds=news_my&fbclid=IwAR2c43O0QRnXQsY70RQBcBIvgwvSF2CDqb65hibYe9T-Soz24h-ZWnUSNMg
그러니까 39.3% 에서 38.7%로 0.6% 떨어진 것을 가지고 또 하락 이라고 쓴 것입니다. 뭐 여기까지는 좋습니다. 여론조사기관에서 수집한 자료가 하락한 것 자체는 사실이니까요. 그런데 문제는 본문에 이런 표현이 등장한다는 것입니다.
 
“리얼미터는 이번 조사 결과를 "UAE, 다보스포럼 순방...
박준석
박준석 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
24
팔로워 2.5K
팔로잉 31