비모수통계, 생각보다 어렵지 않아요

박준석
박준석 인증된 계정 · 데이터 사이언티스트입니다.
2023/01/13
제가 현행 통계학 교육과정에 대한 불만이 꽤 많지만, 그 중에서도 가장 역설적이라고 생각하는 것 중 하나는 바로 비모수적 방법보다 모수적 방법이 먼저 등장한다는 것입니다. 통계학에 조예가 깊지 않으신 분들께 쉽고 빠르게 설명하기는 어렵지만, 최대한 간단하게 설명하면 모수적 방법이라는 것은 자료가 특정한 확률분포를 따른다고 가정하는 것이고, 비모수적 방법은 그런 가정을 도입하지 않거나, 도입한다 해도 최소한으로 제한하는 것입니다. 직관적으로 가정이 많이 들어가는 것보다 덜 들어가는 것이 배우기 쉬워 보입니다. 하물며 복잡한 수식이 가정이라면 말할 것도 없습니다. 혹시 정규분포의 수식을 기억해서 쓰실 수 있으신 분 독자들 중에 계실까요? 심지어 t분포는? t분포의 정확한 수식은 이 글을 쓰고 있는 저도 사실 가물가물합니다. 그런데 비모수통계를 배우면 이런 고통을 상당히 덜 수 있습니다. 이 글은 그런 장점을 광고하기 위해 쓴 글입니다.

가장 간단한 사례는 이런 것입니다. 보통은 어떤 자료가 있으면 그 평균에 관심을 갖는데, 지금부터는 평균을 잠깐 제쳐놓고 중앙값이라는 것에 관심을 가져 봅시다. 중앙값은 자료를 정렬했을 때 정확히 중앙에 위치하는 값으로, 상위/하위 50%에 해당하는 값입니다. 자료에 극단적인 값들이 있는 경우, 평균에 비해 덜 영향을 받으므로 자료를 대표하는 값으로 대신 쓰이기도 합니다.

그러면 지금부터 이런 것을 생각해 봅시다. 자료가 온 모집단의 중앙값이 특정한 값이라고 가정하면, 우리는 무엇을 볼 수 있을까요? 대략 50%의 값은 중앙값보다 클 것이고, 나머지는 중앙값보다 작을 것입니다. 그러니까 100개 정도의 값을 모집단에서 추출했을 때, 50개 정도는 - 우리가 가정하는 중앙값이 맞다면 - 그 중앙값보다 클 것이고 나머지는 작을 것입니다. 물론 여기에는 약간씩의 변동성이 있겠죠. 자료를 추출할 때마다 랜덤함이...
박준석
박준석 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
24
팔로워 2.5K
팔로잉 31