데이터 분석에서 당신이 간과하고 있던 것들
2023/09/19
넌 평상시에 데이터 가공을 소중히 여기지 않았지
누군가 데이터 분석의 숨은 1등 공신이 무엇이냐 묻는다면 단언컨대 데이터 정제라고 답할 것이다. 분석 모델에 맞게 연속형 데이터를 범주형으로 변환한다던지, null값을 0으로 처리할지/제거할지/평균값으로 대체할지 등 데이터가 잘 정제되어 있어야 분석도 수월하게 진행할 수 있기 때문이다. 그런데 과연 데이터 정제를 거쳐야하는 그 테이블의 형태가 원천 데이터일까?
4차 산업혁명, 정보의 바다처럼 요즘은 데이터를 얻는게 쉽다고들 한다. 하지만 그 정보의 바다속에서 건져낸 raw data는 거의 지저분하기 짝이 없다. 그 말은 즉 누군가 이 지저분한 데이터를 정제하고 가공해야 한다는 것이다. 내가 받은 데이터가 운 좋게도 정제와 가공이 모두 멀끔히 된 아주 예쁜 형태일수도 있지만, 아닐수도 있다.
그렇다면 가공해야한다면 어떻게 해야하는 걸까? 제일 중요한 것은 추출하고자 하는 데이터의 형태를 명확하게 파악하는 것이다. 그리고 이를 위해 어떤 테이블들을 어떤 key를 이용해 조인해서 볼지 알아야 한다. 필요한 테이블을 모두 가지고 있다 하더라도 테이블 간에 어떻게 연관지어 볼지를 모른다면 그보다 난처할수가 없기 때문이다.. 하지만 우리가 학교에서 배운 데이터들은 모두 정제되어 있어, 분석에 걸맞는 데이터를 만들어 내는 것이 얼마나 어렵고 힘든 과정인지 알기 어렵다. (경험하지 않은 것은 쉬워보이기 마련이다.)
실제 프로젝트 - 제가 요청한 데이터는 이 형태가 아닌데요…?
1. 분석 목적과 활용 데이터
쓸 데이터는 명확한데 이제 그게 너무 많은.. 좋으면서 싫은..싫으면서 좋은..
공공기관 ‘B’는 오래된 버스 노선을 개편하고자 했다. 그리고 출퇴근 시간을 비롯한 특정 시간대에 특정 지역이 정체되는 이유가 지역 내 인구의 이동 때문인지, 외부 인구가 지나쳐가기 때문인지 알고싶어했다. 버스 노선을 개편하기 위해서는 정부에...
NICE지니데이타는 국내 최대 정보회사인 NICE평가정보의 100% 자회사이며, 시장분석정보 및 컨설팅 서비스를 제공하는 전문 빅데이터 컨설팅 기업입니다.
20여년전에 NICE신용평가(주) 프로젝트를 했던 기억이 떠오르네요~
@윤신영 행정구역 코드 바뀔땐 정말 난감한데 말이죠 ^.ㅠ... 재미있게 읽어주셔서 감사합니다 :) 갈수록 다양해지고 복잡해지는 데이터로 분석하는 모든 분들 화이팅입니다!
@리사 데이터 분석이라는 큰 목적을 위해 절대 간과해서는 안될 중요한 부분이더라구요! 모든 단계가 모여 제 역할을 제대로 해주어야 굴러갈 수 있는 자동차랄까..
garbage in garbage out, 데이터분석에서 목적에 맞게 데이터를 수집하는것도 중요하지만
데이터분석전 데이터 가공과 정제는 아무리 강조해도 지나치지 않다고 생각할 정도로 정말로 중요한것 같습니다.
이름 비슷한 각종 id 칼럼명을 동시에 만났을 때와 행정구역 코드가 갑자기 바뀌었을 때가 떠올랐어요. :’-) 잘 읽었습니다. 마음 같지 않은 데이터를 척척 다루는 분들.. 굉장하다고 생각해요.
20여년전에 NICE신용평가(주) 프로젝트를 했던 기억이 떠오르네요~