2023/01/23
이 글에서는 지난 글에 이어 비모수 통계절차 하나를 더 소개하겠습니다. 바로 맨-휘트니의 U 검정 (Mann-Whitney U test) 라 불리는 것입니다. 이 절차에 대한 설명은 심지어 지난번에 소개한 이항검정보다도 쉬울지도 모릅니다. 지난 글에서처럼, 이 글의 목적은 통계란 사실 현란한 수식의 전개가 전부가 아니라 우리가 쉽게 납득할 수 있는 직관적인 가정에서 출발한 것이며, 수식은 그 기술적 장치에 불과함을 보여드리는 것입니다. 이를 위해 수식을 최대한 배제하고 가능한 한 말로 설명해 보겠습니다. 물론 통계 절차니까 수식을 100% 배제할 수는 없지만, 필요한 만큼만 사용하겠습니다.
우리가 데이터분석에서 흔히 마주치는 문제, 즉 두 집단 중 어느 것이 더 '크냐'를 결정하는 문제를 생각해 봅시다. 이런 문제는 신약의 효과를 검증하는 문제 (실험군과 대조군 중 어느 쪽에서 병세가 더 호전되었는지 보는 것), 새로운 교수학습법의 효과를 검증하는 문제 (기존의 방식과 새로운 방식을 비교하는 것) 등 다양한 장면에서 찾아볼 수 있습니다. 최근 각광받는 A/B 테스트 같은 것도 흔히 집단 간 비교 문제로 환원되곤 하죠. 아무튼 지금부터 우리의 관심사는 두 집단에서 온 상호 독립적인 자료가 있을 때, 어느 집단이 더 ‘크냐’라는 질문에 답하는 것입니다 (물론 ‘작다’의 경우에 대해서도 똑같이 이야기할 수 있습니다).
그런데 ‘크다’에 대한 수학적인 정의는 자세히 이야기하지 않겠습니다. [1] 대신 ‘크다’에 대한 우리의 직관을 동원해 봅시다. 만약 한 집단이 다른 집단보다 일반적으로 ‘크다’면 어떤 것을 기대할 수 있을까요? 물론 언제나 ‘크’지는 않을 것입니다. 그러니까, 한 집단에서 랜덤하게 추출한 자료가 다른 집단에서 추출한 자료보다 언제나 크리라고 기대하지는 않는다는 말입니다. 하지만 절반 이상의 확률로, 전자가 후자보다 크리라 기대할 수는 있을 것입니다. 그러니까 예를 들어서 신약이 만약 정말로 효과가 있다면, 신약을 투여받은 사람들 중 랜덤하게 한...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
참 쉽게 설명 잘하시네요. ㅎㅎ
오... 급한 실무에 쓰고자 제대로 이해하지 못한 채 기계적으로 쓰던 검정이었는데, 읽으니 원리를 조금 이해할 수 있을 것 같습니다. 몇 번 더 정독해 봐야겠어요.
글 잘보고 가네요^^
좋아요 누르고 가네요!!
명절 잘보내세요~~!!
참 쉽게 설명 잘하시네요. ㅎㅎ
오... 급한 실무에 쓰고자 제대로 이해하지 못한 채 기계적으로 쓰던 검정이었는데, 읽으니 원리를 조금 이해할 수 있을 것 같습니다. 몇 번 더 정독해 봐야겠어요.
글 잘보고 가네요^^
좋아요 누르고 가네요!!
명절 잘보내세요~~!!