2022/12/28
■ 데이터는 어떻게 만들어질까
한 해를 정리하는 글을 보며 데이터의 형성 원리에 대해 생각했습니다. 30%라는 백분율은 집단의 규모를 100으로 조정했을 때 30명을 의미합니다. 2배라는 말은 1의 1만큼 더 많은 2를 의미하고요. 데이터의 규모에 관계없이 시작은 1입니다. 1인이 쓴 1건의 글이 분석가능한 데이터 1개가 됩니다. 1개의 단어를 50명이 60건의 글에 썼다면 50명이 아닌 1개의 단어가 포함된 60건의 글이 데이터로서 의미를 갖게 됩니다. 이 중 1명이 1개의 단어를 사용하여 완전히 똑같은 글 10개를 썼다면 60건 중 9건은 제외하는 '중복글 제외'라는 변수를 적용한 분석을 할 수도 있을 것입니다. 수집한 데이터가 많아질수록, 보려고 하는 지표가 다양해질수록 분석의 신뢰도를 높이기 위해 다양한 변수를 적용하고 세밀하게 값을 조정합니다. 목적에 따라 그룹을 나누고 분석한 후 의미 있는 결과를 도출합니다.
한 해를 정리하는 글을 보며 데이터의 형성 원리에 대해 생각했습니다. 30%라는 백분율은 집단의 규모를 100으로 조정했을 때 30명을 의미합니다. 2배라는 말은 1의 1만큼 더 많은 2를 의미하고요. 데이터의 규모에 관계없이 시작은 1입니다. 1인이 쓴 1건의 글이 분석가능한 데이터 1개가 됩니다. 1개의 단어를 50명이 60건의 글에 썼다면 50명이 아닌 1개의 단어가 포함된 60건의 글이 데이터로서 의미를 갖게 됩니다. 이 중 1명이 1개의 단어를 사용하여 완전히 똑같은 글 10개를 썼다면 60건 중 9건은 제외하는 '중복글 제외'라는 변수를 적용한 분석을 할 수도 있을 것입니다. 수집한 데이터가 많아질수록, 보려고 하는 지표가 다양해질수록 분석의 신뢰도를 높이기 위해 다양한 변수를 적용하고 세밀하게 값을 조정합니다. 목적에 따라 그룹을 나누고 분석한 후 의미 있는 결과를 도출합니다.
'손흥민'과 '젤렌스키' 중 2022 얼룩소 올해의 인물은?
짧은 한 문장을 풀어쓰면 다음과 같습니다.
2022년 얼룩소에서 수천 명의 사람들이 작성한 몇만 건의 글을 분석했더니 32명의 인물이 추려졌다. 수천 개의 글에서 언급한 16명 중 언급률을 공개하지 않고 후보에 올렸고 실시간 투표를 통해 그중 2명이 결승에 올랐다. 언급률에 관계없이 실시간 투표에서 이긴 '손흥민'과 '젤렌스키'에게 오후 4시까지 투표해 달라. 글을 바탕으로 뽑아낸 데이터의 마지막 결과를 얻는 과정에 동참해 달라. 이 결과는 글쓰기와 투표 과정에 참여한 모든 사람들의 선택에 의존하고 있으며 얼룩소의 2022년 대표 인물로 기록될 것이다.
이것은 얼룩소의 기록이 아니다.
모든 참여자의 공동 기록이니 외면하지 말아 달라.
■ 얼룩소
32강에 올랐던 인물들의 정보는 사라졌지만 16강부터는 남아있어서 32강은 제외하고 박진만 님께서 올려주신 자료를 바탕으로 생각을 이어갑니다. 결승전에 오른 두 인물은 4강 투표에 참여한 사람들의 결과를 바탕으로 선정된 것입니다. 4강 투...
아니 홈은님 이 글 무엇!!! 좋아요 열개 누를 수 있었음 아홉개 누를뻔요!! 와 감사한 글 잘 봤습니다! 휴먼 네트워크를 읽으시더니 홈은네트웍이 되심!
온 우주가 물리학자라고 했는데 우주정복자도 아니고 ㅋㅋㅋ 정보과학자! 멋집니다.
저도 결승에 오른 두 사람 보면서 사람들이 세상을 욕하면서도 한켠에는 ‘그럼에도 불구하고’를 생각하고 있는 게 아닐까 싶더라고요. 축구!! 월드컵 안녕.. 4월엔 이제 봄과 함께 야구…… 어서와……. ㅋㅋㅋㅋ
와 정말 멋진 분석글입니다!
얼룩소 월드컵을 따라가며, 단순 언급량과 토너먼트에서 위로 올리려는 심리가 다르겠다는 생각이 들었어요. 축구도 리그전과 토너먼트 전을 다른 전략으로 가져가는 것 처럼요.
결승전에 오른 두 명은 그 많은 인물들 중에서 긍정적인 이미지를 구축해온 인물들이 아닐까 싶었어요. 축구도 토너먼트에서 수비전술이 중요해 지듯이, 인물 월드컵에서도 네거티브가 적은 인물이 올라가기 쉬운 구조가 아닐까 싶은 생각이 들었네요!
아 그리고 멋진 물리학자라는 언급.. 과찬이시고 감사합니다ㅠ (네트워크 과학 분야가 물리학 분야에 걸쳐있고 실제 물리학에도 관심이 많지만, 더 정확하게는 정보과학에 가까운 공부를 하고 있어요)
온 우주가 물리학자라고 했는데 우주정복자도 아니고 ㅋㅋㅋ 정보과학자! 멋집니다.
저도 결승에 오른 두 사람 보면서 사람들이 세상을 욕하면서도 한켠에는 ‘그럼에도 불구하고’를 생각하고 있는 게 아닐까 싶더라고요. 축구!! 월드컵 안녕.. 4월엔 이제 봄과 함께 야구…… 어서와……. ㅋㅋㅋㅋ
와 정말 멋진 분석글입니다!
얼룩소 월드컵을 따라가며, 단순 언급량과 토너먼트에서 위로 올리려는 심리가 다르겠다는 생각이 들었어요. 축구도 리그전과 토너먼트 전을 다른 전략으로 가져가는 것 처럼요.
결승전에 오른 두 명은 그 많은 인물들 중에서 긍정적인 이미지를 구축해온 인물들이 아닐까 싶었어요. 축구도 토너먼트에서 수비전술이 중요해 지듯이, 인물 월드컵에서도 네거티브가 적은 인물이 올라가기 쉬운 구조가 아닐까 싶은 생각이 들었네요!
아 그리고 멋진 물리학자라는 언급.. 과찬이시고 감사합니다ㅠ (네트워크 과학 분야가 물리학 분야에 걸쳐있고 실제 물리학에도 관심이 많지만, 더 정확하게는 정보과학에 가까운 공부를 하고 있어요)
아니 홈은님 이 글 무엇!!! 좋아요 열개 누를 수 있었음 아홉개 누를뻔요!! 와 감사한 글 잘 봤습니다! 휴먼 네트워크를 읽으시더니 홈은네트웍이 되심!