'겹치는 신뢰구간'이라는 통밥에 대한 커멘트
2023/01/12
예전부터 한 번 페이지에서나 다른 지면에서나 이야기하고 싶었던 주제였는데, 마침 관련 글이 하나 올라왔길래 한 번 다루어 봅니다. 겹치는 신뢰구간에 대한 이야기입니다.
결론부터 말하면, 어떤 두 통계량 (이를테면 지지율 같은 것) 의 신뢰구간이 겹치는지 아닌지는 그 차이가 통계적으로 유의한지 아닌지를 판단하는 데 유용한 휴리스틱 (어림법) 일 수 있습니다. 그러니까 두 통계량의 신뢰구간이 겹치면 차이가 통계적으로 유의하지 않다, 겹치지 않으면 차이가 유의하다는 식으로 판단하는 것 말입니다. 만약 신뢰구간 간의 거리가 아주 멀거나, 아주 가까우면 큰 문제가 없습니다. 그런데 애매하게 겹칠 때는 회색지대가 있을 수 있습니다. 얼마나 애매하게? 그건 상황에 따라 다릅니다. 그런데 그런 상황에서는 “겹치는지 보는” 어림법이 틀릴 수 있다는 말입니다. 대신 정확히 계산해야 합니다.
간단한 예를 하나 들어 보겠습니다. 서로 독립적으로 추출된 표본에서 계산된 두 개의 통계량 X, Y가 있는데, 각각의 95% 신뢰구간이 다음과 같이 주어졌다고 가정하겠습니다. 여기서 신뢰구간은 관측된 값을 중심으로 대칭인데, 대략 플러스 마이너스 2표준오차 (standard error) 라고 해 보죠. 그리고 표준편차와 표준오차는 원래는 다른 개념이지만 이 글...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
(헛소리...)
데이터 분석가들의 작업은 어림값을 무한대로 미분해 신뢰로 수렴하는 값을 도출하기 위한 노력으로 보입니당. 계산으로 추정한 결과가 사회에 미치는 영향력이 점점 커지고 있기 때문인 것 같기도 하고요.
어제 읽은 책은 데이터를 바탕으로 산출한 값에 대한 이야기가 아니라 데이터 수집 과정에 관한 이야기를 하더라고요. 통계학자의 영역을 넘어서는 이야기인데 문득 드는 생각이 데이터값의 편향을 인지했다면 그런데도 재수집에 대한 권한이 없어서 주어진 분석에만 충실했다면 통계학자는 사회에 공헌하고 있는 것일까요 사회의 왜곡을 위해 열심히 일하고 있는 것일까요.
데이터를 얻기 위한 질문의 타당성에 대한 검증도 중요하지만 지금 만지고 있는 데이터가 올바른 질문으로부터 얻어진 데이터인지에 대한 생각은 통계학자의 영역이 아니라고 단언할 수 있을까요.... 높은 신뢰도의 분석 방법을 활용하더라도 쓰레기 넣은 데서 쓰레기 나오......
(헛소리...)
데이터 분석가들의 작업은 어림값을 무한대로 미분해 신뢰로 수렴하는 값을 도출하기 위한 노력으로 보입니당. 계산으로 추정한 결과가 사회에 미치는 영향력이 점점 커지고 있기 때문인 것 같기도 하고요.
어제 읽은 책은 데이터를 바탕으로 산출한 값에 대한 이야기가 아니라 데이터 수집 과정에 관한 이야기를 하더라고요. 통계학자의 영역을 넘어서는 이야기인데 문득 드는 생각이 데이터값의 편향을 인지했다면 그런데도 재수집에 대한 권한이 없어서 주어진 분석에만 충실했다면 통계학자는 사회에 공헌하고 있는 것일까요 사회의 왜곡을 위해 열심히 일하고 있는 것일까요.
데이터를 얻기 위한 질문의 타당성에 대한 검증도 중요하지만 지금 만지고 있는 데이터가 올바른 질문으로부터 얻어진 데이터인지에 대한 생각은 통계학자의 영역이 아니라고 단언할 수 있을까요.... 높은 신뢰도의 분석 방법을 활용하더라도 쓰레기 넣은 데서 쓰레기 나오......