비모수통계, 생각보다 어렵지 않아요
2023/01/13
제가 현행 통계학 교육과정에 대한 불만이 꽤 많지만, 그 중에서도 가장 역설적이라고 생각하는 것 중 하나는 바로 비모수적 방법보다 모수적 방법이 먼저 등장한다는 것입니다. 통계학에 조예가 깊지 않으신 분들께 쉽고 빠르게 설명하기는 어렵지만, 최대한 간단하게 설명하면 모수적 방법이라는 것은 자료가 특정한 확률분포를 따른다고 가정하는 것이고, 비모수적 방법은 그런 가정을 도입하지 않거나, 도입한다 해도 최소한으로 제한하는 것입니다. 직관적으로 가정이 많이 들어가는 것보다 덜 들어가는 것이 배우기 쉬워 보입니다. 하물며 복잡한 수식이 가정이라면 말할 것도 없습니다. 혹시 정규분포의 수식을 기억해서 쓰실 수 있으신 분 독자들 중에 계실까요? 심지어 t분포는? t분포의 정확한 수식은 이 글을 쓰고 있는 저도 사실 가물가물합니다. 그런데 비모수통계를 배우면 이런 고통을 상당히 덜 수 있습니다. 이 글은 그런 장점을 광고하기 위해 쓴 글입니다.
가장 간단한 사례는 이런 것입니다. 보통은 어떤 자료가 있으면 그 평균에 관심을 갖는데, 지금부터는 평균을 잠깐 제쳐놓고 중앙값이라는 것에 관심을 가져 봅시다. 중앙값은 자료를 정렬했을 때 정확히 중앙에 위치하는 값으로, 상위/하위 50%에 해당하는 값입니다. 자료에 극단적인 값들이 있는 경우, 평균에 비해 덜 영향을 받으므로 자료를 대표하는 값으로 대신 쓰이기도 합니다.
그러면 지금부터 이런 것을 생각해 봅시다. 자료가 온 모집단의 중앙값이 특정한 값이라고 가정하면, 우리는 무엇을 볼 수 있을까요? 대략 50%의 값은 중앙값보다 클 것이고, 나머지는 중앙값보다 작을 것입니다. 그러니까 100개 정도의 값을 모집단에서 추출했을 때, 50개 정도는 - 우리가 가정하는 중앙값이 맞다면 - 그 중앙값보다 클 것이고 나머지는 작을 것입니다. 물론 여기에는 약간씩의 변동성이 있겠죠. 자료를 추출할 때마다 랜덤함이...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
@방태모 비모수검정이 언제나 모수적 검정에 비해 검정력이 낮은 건 아니고, 모수적 가정이 충족되면 모수적 검정의 검정력이 더 높지만 그렇지 않으면 경우에 따라 비모수검정의 검정력이 훨씬 높기도 합니다. 심할 때는 몇 배씩
글의 덧 2는 비모수적 검정법이 모수적 검정법에 비해 검정력이 떨어진다는 것을 조금 다르게 표현하신 부분이라 이해했는데, 맞나용?
잘 읽었습니다^^
@몬스 네 맞는 말씀이고요, 부트스트랩이나 몬테 카를로 같은 방법들도 같은 이유로 컴퓨팅에 익숙하신 분들이 좀 더 좋아하시는 편입니다.
와 정말 쉽게 알려주십니다!
문득 모수/비모수 검정에 대한 선호도는 컴퓨팅 자원에 익숙한가 아닌가로 갈리는 게 아닐까 하는 생각이 들었습니다. 컴퓨팅(코딩)에 익숙한 사람이라면, 순위통계량이나 반복 시행에 대해 느끼는 cost가 상대적으로 낮으니, 직관적이고 명시적인 비모수적 방법론이 더 끌리는 건 아닐가 하구요ㅎㅎ
@몬스 네 맞는 말씀이고요, 부트스트랩이나 몬테 카를로 같은 방법들도 같은 이유로 컴퓨팅에 익숙하신 분들이 좀 더 좋아하시는 편입니다.
와 정말 쉽게 알려주십니다!
문득 모수/비모수 검정에 대한 선호도는 컴퓨팅 자원에 익숙한가 아닌가로 갈리는 게 아닐까 하는 생각이 들었습니다. 컴퓨팅(코딩)에 익숙한 사람이라면, 순위통계량이나 반복 시행에 대해 느끼는 cost가 상대적으로 낮으니, 직관적이고 명시적인 비모수적 방법론이 더 끌리는 건 아닐가 하구요ㅎㅎ
잘 읽었습니다^^