박준석
박준석 인증된 계정 · 데이터 사이언티스트입니다.
2023/04/10
지난 글에서는 엔지니어링 쪽에 대해 주로 이야기했는데, 사실 나는 엔지니어링에 대해 데이터과학자가 되고 나서야 본격적으로(?) 배우기 시작한 입장이기 때문에 오히려 그 글은 엔지니어링 전문가가 보기에는 동의할 수 없는 부분들이 꽤 있을지도 모르겠다. 만약 잘못된 부분이 있었다면 먼저 양해를 구한다. 하지만 오늘 이야기할 부분은 내가 그래도 꽤 오랜 시간 동안 공부했었던 분야기 때문에 조금 더 자신있게 말할 수 있을지도 모르겠다. 바로 통계학 이야기다. 통계학은 물론 데이터 사이언스에서 중요한 위치를 차지하는 토픽이긴 한데, 생각보다 사람들이 깊이있게 공부하는 분야가 아니다. 오해가 굉장히 많은 분야기도 하다. 

일단 개인적으로 중요하게 생각하는 지점 한 가지. 여기에는 동의하는 사람도 그렇지 않은 사람들도 있을 것 같은데 통계학과 기계학습이 비슷하면서도 꽤 다르다. 어떤 사람은 그냥 기계학습이 통계학의 일부라고 말하는 사람들도 있고 그 반대로 생각하는 사람도 있을지도 모르겠다. 그런데 역사적으로 봤을 때, 서로가 좀 더 집중했던 접근법이 있고 더 잘 연구해온 기법들이 있는 것은 부정하기 힘들다고 개인적으로 생각한다 (벌써부터 개인적으로 라는 단어를 쓰는 것을 보면 이 말도 논란의 소지가 있다고 생각하는 게 독자들에게는 좋을지도 모르겠다). 그 중에서도 특히 실험계획 및 분석 기법, 다양한 회귀분석 기법들, 베이지안 통계 같은 토픽들은 아무래도 기계학습 진영보다는 (전통적) 통계학에서 좀 더 접하기 쉽고 공부하기 좋다고 보는 편이다. 여기에도 동의하기 어렵다면…뭐 그렇게 생각하실 수는 있다. 그런데 그런 관점은 꽤 advanced topic에 가서야 통한다고 ‘개인적으로’ 생각한다. 

물론 데이터 사이언스를 처음 공부하는 사람들은 통계학입문 정도는 공부하는 경우가 흔하기 때문에 기본적인 주제들, 이를테면 기초적인 통계적 개념들 (공분산, 상관, 조건부확률, P값 등등), 점/구간추정, 가설검정 등은 기본적으로(!) 가져간다고 가정하자. 이렇게 말한다고 해서...
박준석
박준석 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인
심리학을 전공했지만 졸업 후에는 미국에서 데이터과학자로 일하고 있습니다. 데이터를 가지고 가치 있는 활동을 하는 데 관심이 많습니다. [가짜뉴스의 심리학], [3일 만에 끝내는 코딩 통계], [데이터과학자의 일] 등을 썼습니다.
24
팔로워 2.5K
팔로잉 31