홈은
홈은 · 15년차 집돌이
2022/12/28
■ 데이터는 어떻게 만들어질까

한 해를 정리하는 글을 보며 데이터의 형성 원리에 대해 생각했습니다. 30%라는 백분율은 집단의 규모를 100으로 조정했을 때 30명을 의미합니다. 2배라는 말은 1의 1만큼 더 많은 2를 의미하고요. 데이터의 규모에 관계없이 시작은 1입니다. 1인이 쓴 1건의 글이 분석가능한 데이터 1개가 됩니다. 1개의 단어를 50명이 60건의 글에 썼다면 50명이 아닌 1개의 단어가 포함된 60건의 글이 데이터로서 의미를 갖게 됩니다. 이 중 1명이 1개의 단어를 사용하여 완전히 똑같은 글 10개를 썼다면 60건 중 9건은 제외하는 '중복글 제외'라는 변수를 적용한 분석을 할 수도 있을 것입니다. 수집한 데이터가 많아질수록, 보려고 하는 지표가 다양해질수록 분석의 신뢰도를 높이기 위해 다양한 변수를 적용하고 세밀하게 값을 조정합니다. 목적에 따라 그룹을 나누고 분석한 후 의미 있는 결과를 도출합니다.

'손흥민'과 '젤렌스키' 중 2022 얼룩소 올해의 인물은?

짧은 한 문장을 풀어쓰면 다음과 같습니다.

2022년 얼룩소에서 수천 명의 사람들이 작성한 몇만 건의 글을 분석했더니 32명의 인물이 추려졌다. 수천 개의 글에서 언급한 16명 중 언급률을 공개하지 않고 후보에 올렸고 실시간 투표를 통해 그중 2명이 결승에 올랐다. 언급률에 관계없이 실시간 투표에서 이긴 '손흥민'과 '젤렌스키'에게 오후 4시까지 투표해 달라. 글을 바탕으로 뽑아낸 데이터의 마지막 결과를 얻는 과정에 동참해 달라. 이 결과는 글쓰기와 투표 과정에 참여한 모든 사람들의 선택에 의존하고 있으며 얼룩소의 2022년 대표 인물로 기록될 것이다.

이것은 얼룩소의 기록이 아니다. 
모든 참여자의 공동 기록이니 외면하지 말아 달라.


■ 얼룩소

32강에 올랐던 인물들의 정보는 사라졌지만 16강부터는 남아있어서 32강은 제외하고 박진만 님께서 올려주신 자료를 바탕으로 생각을 이어갑니다. 결승전에 오른 두 인물은 4강 투표에 참여한 사람들의 결과를 바탕으로 선정된 것입니다. 4강 투...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
.
935
팔로워 759
팔로잉 4