슬기로운 데이터 사용법
2024/01/18
데이터는 자연의 법칙도, 종교적 진리도 아니다
2023년, 공공 영역의 데이터 과학에 관한 대중서를 한국 독자에게 소개하겠다는 목적으로 '우리에게는 다른 데이터가 필요하다'란 책을 썼다. 목적은 그러했으나, 책을 쓰다 보니 '데이터란 무엇인가'에 대한 이야기를 하지 않을 수 없다는 것을 깨달았다.
데이터는 빅데이터, 인공지능의 시대가 등장하기 이전부터 의사 결정의 중요한 도구였다. 예를 들어, 중고등학교를 다닐 때의 시험 성적을 생각해 보자. 왜 시험 성적이 중요한가? 이 성적이 대학가는 데 중요한 역할을 하기 때문이다. 한국 사회에서 학생들이 표준화 된 시험을 보고, 그 시험 성적으로 등수를, 서열을 매기는 이유는, 시험이란 데이터를 통해서 고등 교육 기회의 분배란 의사 결정을 하기 위해서다. 이렇듯, 데이터는 우리 일상에, 주변에, 매우 가까운 곳에 있다.
물고기는 물이 무엇인지 모른다. 물 속 안에서 살기 때문이다. 데이터의 세상에서 살아가는 우리들도 데이터를 잘 모른다. 우리는 데이터를 요구받고, 제공하는 상황들이 마치 자연의 법칙인 것처럼 자연스럽다.
그러나 데이터는 자연의 법칙도 아니고, 종교적 진리도 아니다. 가공하지 않은 데이터(raw data)는 존재하지 않는다. 자연의 법칙은 관찰하는 사람에 따라 바뀌지 않는다. 종교적 진리는 믿는 사람에 따라 변하지 않는다. 데이터는 다르다. 데이터는 스스로 말하지 않는다 (data doesn’t speak for itself). 사람이 데이터를 창조하고, 해석하고, 그 가치를 결정한다. 어떤 데이터가 존재한다는 것은, 누군가 그 데이터의 형태와 내용을 기획했고, 수집했고, 정제했고, 관리했다는 뜻이다.
2023년, 공공 영역의 데이터 과학에 관한 대중서를 한국 독자에게 소개하겠다는 목적으로 '우리에게는 다른 데이터가 필요하다'란 책을 썼다. 목적은 그러했으나, 책을 쓰다 보니 '데이터란 무엇인가'에 대한 이야기를 하지 않을 수 없다는 것을 깨달았다.
데이터는 빅데이터, 인공지능의 시대가 등장하기 이전부터 의사 결정의 중요한 도구였다. 예를 들어, 중고등학교를 다닐 때의 시험 성적을 생각해 보자. 왜 시험 성적이 중요한가? 이 성적이 대학가는 데 중요한 역할을 하기 때문이다. 한국 사회에서 학생들이 표준화 된 시험을 보고, 그 시험 성적으로 등수를, 서열을 매기는 이유는, 시험이란 데이터를 통해서 고등 교육 기회의 분배란 의사 결정을 하기 위해서다. 이렇듯, 데이터는 우리 일상에, 주변에, 매우 가까운 곳에 있다.
물고기는 물이 무엇인지 모른다. 물 속 안에서 살기 때문이다. 데이터의 세상에서 살아가는 우리들도 데이터를 잘 모른다. 우리는 데이터를 요구받고, 제공하는 상황들이 마치 자연의 법칙인 것처럼 자연스럽다.
그러나 데이터는 자연의 법칙도 아니고, 종교적 진리도 아니다. 가공하지 않은 데이터(raw data)는 존재하지 않는다. 자연의 법칙은 관찰하는 사람에 따라 바뀌지 않는다. 종교적 진리는 믿는 사람에 따라 변하지 않는다. 데이터는 다르다. 데이터는 스스로 말하지 않는다 (data doesn’t speak for itself). 사람이 데이터를 창조하고, 해석하고, 그 가치를 결정한다. 어떤 데이터가 존재한다는 것은, 누군가 그 데이터의 형태와 내용을 기획했고, 수집했고, 정제했고, 관리했다는 뜻이다.
데이터가 도구라면, 그 도구의 기본적 속성을 잘 이해하는 것이 중요하다. 원툴 플레이어가 되면 안 된다. 트렌드에 매몰되면 안 된다. 항상 빅데이터가 좋은 것이 아니다. 빅데이터를 써야 할 곳엔 빅데이터를 쓰고, 스몰 데이터로 충분할 때는 스몰 데이터면 충분하다. 굴착기를 써야 할 때는 굴착기를 써야 ...
존스홉킨스 SNF 아고라 연구소 연구과학자. 미국의 대표적 시빅 테크 단체인 코드 포 아메리카(Code for America)에서 데이터 과학자로 일했다. <우리에게는 다른 데이터가 필요하다 (세종서적 2023)>의 저자.