데이터 분석에서 당신이 간과하고 있던 것들

NICE지니데이타
2023/09/19
고를 수 없는게 죄는 아니자나

넌 평상시에 데이터 가공을 소중히 여기지 않았지

누군가 데이터 분석의 숨은 1등 공신이 무엇이냐 묻는다면 단언컨대 데이터 정제라고 답할 것이다. 분석 모델에 맞게 연속형 데이터를 범주형으로 변환한다던지, null값을 0으로 처리할지/제거할지/평균값으로 대체할지 등 데이터가 잘 정제되어 있어야 분석도 수월하게 진행할 수 있기 때문이다. 그런데 과연 데이터 정제를 거쳐야하는 그 테이블의 형태가 원천 데이터일까?
4차 산업혁명, 정보의 바다처럼 요즘은 데이터를 얻는게 쉽다고들 한다. 하지만 그 정보의 바다속에서 건져낸 raw data는 거의 지저분하기 짝이 없다. 그 말은 즉 누군가 이 지저분한 데이터를 정제하고 가공해야 한다는 것이다. 내가 받은 데이터가 운 좋게도 정제와 가공이 모두 멀끔히 된 아주 예쁜 형태일수도 있지만, 아닐수도 있다.
그렇다면 가공해야한다면 어떻게 해야하는 걸까? 제일 중요한 것은 추출하고자 하는 데이터의 형태를 명확하게 파악하는 것이다. 그리고 이를 위해 어떤 테이블들을 어떤 key를 이용해 조인해서 볼지 알아야 한다. 필요한 테이블을 모두 가지고 있다 하더라도 테이블 간에 어떻게 연관지어 볼지를 모른다면 그보다 난처할수가 없기 때문이다.. 하지만 우리가 학교에서 배운 데이터들은 모두 정제되어 있어, 분석에 걸맞는 데이터를 만들어 내는 것이 얼마나 어렵고 힘든 과정인지 알기 어렵다. (경험하지 않은 것은 쉬워보이기 마련이다.)


실제 프로젝트 - 제가 요청한 데이터는 이 형태가 아닌데요…?

1. 분석 목적과 활용 데이터
쓸 데이터는 명확한데 이제 그게 너무 많은.. 좋으면서 싫은..싫으면서 좋은..
공공기관 ‘B’는 오래된 버스 노선을 개편하고자 했다. 그리고 출퇴근 시간을 비롯한 특정 시간대에 특정 지역이 정체되는 이유가 지역 내 인구의 이동 때문인지, 외부 인구가 지나쳐가기 때문인지 알고싶어했다. 버스 노선을 개편하기 위해서는 정부에...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
NICE지니데이타는 국내 최대 정보회사인 NICE평가정보의 100% 자회사이며, 시장분석정보 및 컨설팅 서비스를 제공하는 전문 빅데이터 컨설팅 기업입니다.
10
팔로워 17
팔로잉 2