홈은

2023/01/29

데이터마이닝을 위한 로우데이터 단계부터 분석가의 의사결정이 들어가야 한다는 의견도 있 (나라던가.. 나같은 사람…) 분석자가 왜곡된 의사결정을 하고 의도적으로 예상결과값이 나오도록 데이터를 추출하는 것도 문제가 있겠지만 의사결정없이 기계적으로 분석하는 건 사실 더 위험할 수 있거든요.

단순히 주어진 값으로 분석을 할 때 추출값 선정 과정에 문제가 있거나 결정적인 누락 부분이 있다면 아무리 훌륭한 분석 과정을 거쳤더라도 똥…… 쓰레기를 넣으면 쓰레기가 나오능 것과 같은 의미입니당. 와하핫.

좋은 예시) 인체에 가장 적합한 스마트폰 규격은 가로 ㅇㅇ센티미터에 세로ㅇㅇ센티미터양. 우리가 겁나 열시밓 분석했엉. -> 근데 알고보니 모집단 17만명 중 12만명이 백인 남자였.. -> 분석 결과를 적극적으로 반영한 훌륭한 결과물이 나왔지만 이거를 ‘인체적합도가 높다’ 라고 말하기엔 우리는 너모나 동양인인 것.

연하일휘

2023/01/29

와!! 트위터를 이렇게 분석할 수도 있었군요!! 트위터를 사용해 본 적이 없는.........그리고 주위의 말로는 트위터는 조금 극단적인 경향의 사람들이 많으니 사용하지 말라는 조언을 들어왔던 터라, 너무 부정적인 관점만 지녔던 것은 아닌가 반성하게 되었습니다..ㅎㅎ 좋은 글, 많이 배워갑니다!! :)

몬스

2023/01/29

맞아요. 데이터는 만드는 사람들의 의도가 담겨있는데, 정작 대규모 데이터를 만드는 쪽은 규모가 큰 기업이나 국가가 대부분이죠.. 데이터보다 분석능력을 중시한다는 건 결국 데이터를 생산하는 주체에게 좋을 일.. 코딩이다 뭐다 중요하지만, 어떤 데이터를 어떻게 만들지 참 중요한 일인 것 같아요!