N
2022/02/10
글을 잘 읽었습니다. 데이터 시각화에 있어서 아주 작은 의견 남깁니다.

데이터를 어떻게 보여주느냐 자체도 어떤 관점, 틀을 부여하는 효과가 있다고 생각합니다.

이 경우, 성x연령이란 집단으로 묶어 평균을 내는 작업 자체가 (두 번째 시도는 아예 그렇게 분절화했습니다) 특정한 시선에 맞춰서 생각하게 만듭니다. 이 시선, 틀로 계속 이야기를 풀기 전에, 정말 그런 틀로 보는 것이 의미있는지를, 독자들도 궁금하면 살펴보게 좀더 별첨자료(?)같은 것이 필요하지 않을까 하는 생각이 듭니다.

이런 맥락에서 원자료를 공개하기 어렵다면, 앞선 글에서 시각화를 통해 어느 정도 궁금증을 해소할 수 있지 않을까요.

https://blog.revolutionanalytics.com/2017/05/the-datasaurus-dozen.html 같은 평균, 분산 통계값을 갖고 있으면서도, 통계값을 통해 잃어버리는 중요한 정보도 생깁니다. 위의 예제는 날 것의 데이터를 평균, 분산 같은 통계수치로 갈음할 때 명백하고 중요한 정보들을 놓칠 수 있다는 사례로 종종 인용됩니다.

제가 제시해주신 그래프들을 보면서 당장 궁금했던건, (1) 연령별 설문에 표집된 사람들의 원 숫자, (2) 이들의 해당 보수/진보에 대해 응답한 숫자들의 분포입니다.

두 질문을 갖게 된 이유는,

(1) 설문에 응답한 사람들이 얼마나 많은지 직관적으로 알고 싶습니다. 어떤 연령대에 대강 몇 명의 사람들에게 물어봤느냐 자체가, 얼마나 세밀한 분해능으로 자료들에 대해 논해 볼 수 있는지 대강 범위를 말해줄 수 있을 것 같습니다.

...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
11
팔로워 148
팔로잉 13