2023/04/10
지난 글에서는 엔지니어링 쪽에 대해 주로 이야기했는데, 사실 나는 엔지니어링에 대해 데이터과학자가 되고 나서야 본격적으로(?) 배우기 시작한 입장이기 때문에 오히려 그 글은 엔지니어링 전문가가 보기에는 동의할 수 없는 부분들이 꽤 있을지도 모르겠다. 만약 잘못된 부분이 있었다면 먼저 양해를 구한다. 하지만 오늘 이야기할 부분은 내가 그래도 꽤 오랜 시간 동안 공부했었던 분야기 때문에 조금 더 자신있게 말할 수 있을지도 모르겠다. 바로 통계학 이야기다. 통계학은 물론 데이터 사이언스에서 중요한 위치를 차지하는 토픽이긴 한데, 생각보다 사람들이 깊이있게 공부하는 분야가 아니다. 오해가 굉장히 많은 분야기도 하다.
일단 개인적으로 중요하게 생각하는 지점 한 가지. 여기에는 동의하는 사람도 그렇지 않은 사람들도 있을 것 같은데 통계학과 기계학습이 비슷하면서도 꽤 다르다. 어떤 사람은 그냥 기계학습이 통계학의 일부라고 말하는 사람들도 있고 그 반대로 생각하는 사람도 있을지도 모르겠다. 그런데 역사적으로 봤을 때, 서로가 좀 더 집중했던 접근법이 있고 더 잘 연구해온 기법들이 있는 것은 부정하기 힘들다고 개인적으로 생각한다 (벌써부터 개인적으로 라는 단어를 쓰는 것을 보면 이 말도 논란의 소지가 있다고 생각하는 게 독자들에게는 좋을지도 모르겠다). 그 중에서도 특히 실험계획 및 분석 기법, 다양한 회귀분석 기법들, 베이지안 통계 같은 토픽들은 아무래도 기계학습 진영보다는 (전통적) 통계학에서 좀 더 접하기 쉽고 공부하기 좋다고 보는 편이다. 여기에도 동의하기 어렵다면…뭐 그렇게 생각하실 수는 있다. 그런데 그런 관점은 꽤 advanced topic에 가서야 통한다고 ‘개인적으로’ 생각한다.
물론 데이터 사이언스를 처음 공부하는 사람들은 통계학입문 정도는 공부하는 경우가 흔하기 때문에 기본적인 주제들, 이를테면 기초적인 통계적 개념들 (공분산, 상관, 조건부확률, P값 등등), 점/구간추정, 가설검정 등은 기본적으로(!) 가져간다고 가정하자. 이렇게 말한다고 해서...
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.