2023/05/01
- 데이터 수집
트위터 데이터 수집은 Hoaxy라는 툴을 활용했다. 얼룩소에 간단한 사용방법을 공유한 적 있는데, 트위터의 api 사용제한이 강화되면서 5월부터는 더 이상 사용할 수 없게 되었다.
어쨋든 틈틈이 수집한 결과, 3월 28일 부터 4월 26일까지 약 한 달 간의 데이터를 수집할 수 있었다. 검색은 '능욕'을 키워드로 하는 리트윗 활동(1), 그리고 '지인'까지를 포함한 구체적인 범죄활동(2)을 대상으로 했다. 각각의 구체적인 키워드는 다음과 같다.
(1) 능욕 - 범죄
(2) (지인 능욕) - 범죄
'-범죄'는 범죄라는 키워드를 포함하는 트윗을 제외한 검색을 하기 위한 고급 검색 기능인데, 지인 능욕을 범죄로써 다루는 트윗들을 배제하기 위함이다. 범죄 계정은 범죄라는 표현을 쓸 가능성이 적을 것이라는 판단이었다.
이 외에도 능욕 문화나 범죄와는 상관 없는 클러스터를 수동으로 제거했다. 이 작업에서는 Hoaxy의 가시화 툴을 활용했는데, 아래 그림이 우측 빨간색으로 표시한 클러스터가 한 예이다. 이 클러스터에는 지인 능욕 범죄를 비판하는 활동이 포함되어 있는데, 얼룩소 계정도 포함되어 있었다.
한편, 리트윗과 같은 상호작용은 트위터 상의 모든 지인 능욕형 범죄 행위를 커버하지 못한다. 리트윗 없이 곧바로 DM으로 소통하는 경우가 있는가 하면, '지인'과 '능욕' 외의 다른 키워드를 활용하여 범죄를 공모하는 경우도 있기 때문이다. 따라서 위와 같은 데이터 수집 방법은 지인 능욕형 범죄의 일부만을 관찰 대상으로 한다는 점을 미리 밝힌다.
어쨋든 틈틈이 수집한 결과, 3월 28일 부터 4월 26일까지 약 한 달 간의 데이터를 수집할 수 있었다. 검색은 '능욕'을 키워드로 하는 리트윗 활동(1), 그리고 '지인'까지를 포함한 구체적인 범죄활동(2)을 대상으로 했다. 각각의 구체적인 키워드는 다음과 같다.
(1) 능욕 - 범죄
(2) (지인 능욕) - 범죄
'-범죄'는 범죄라는 키워드를 포함하는 트윗을 제외한 검색을 하기 위한 고급 검색 기능인데, 지인 능욕을 범죄로써 다루는 트윗들을 배제하기 위함이다. 범죄 계정은 범죄라는 표현을 쓸 가능성이 적을 것이라는 판단이었다.
이 외에도 능욕 문화나 범죄와는 상관 없는 클러스터를 수동으로 제거했다. 이 작업에서는 Hoaxy의 가시화 툴을 활용했는데, 아래 그림이 우측 빨간색으로 표시한 클러스터가 한 예이다. 이 클러스터에는 지인 능욕 범죄를 비판하는 활동이 포함되어 있는데, 얼룩소 계정도 포함되어 있었다.
한편, 리트윗과 같은 상호작용은 트위터 상의 모든 지인 능욕형 범죄 행위를 커버하지 못한다. 리트윗 없이 곧바로 DM으로 소통하는 경우가 있는가 하면, '지인'과 '능욕' 외의 다른 키워드를 활용하여 범죄를 공모하는 경우도 있기 때문이다. 따라서 위와 같은 데이터 수집 방법은 지인 능욕형 범죄의 일부만을 관찰 대상으로 한다는 점을 미리 밝힌다.
- 네트워크 구축
트위터에서 트윗과 상호작용하는 활동에는 방향성이 있다. 링크를 연결하는 규칙은 다음과 같다.
(1) A가 B의 트윗에 링크를 거는 경우 : A->B
(2) B가...
(1) A가 B의 트윗에 링크를 거는 경우 : A->B
(2) B가...
@김재경 분명 그럴 가능성도 있는 것 같습니다. 범죄 계정들의 팔로잉 네트워크를 살펴본다거나, burst시점의 트윗 내용 유사성 같은 걸 보면 더 확실히 말할 수 있는 부분이 생길 것 같아요..!
저도 수명 자체보다는 범죄 계정들이 서로 뒤에서 연락하면서 특정 시간에 한 번에 게시물들에 대한 활동(게시, 리트윗)을 할 가능성이 높다고 봐요. 지인능욕의 특성상 한 번에 활동해야 알고리즘을 타고 더 무작위의 다수에게 노출될 가능성이 높으니까요.
@김재경 분명 그럴 가능성도 있는 것 같습니다. 범죄 계정들의 팔로잉 네트워크를 살펴본다거나, burst시점의 트윗 내용 유사성 같은 걸 보면 더 확실히 말할 수 있는 부분이 생길 것 같아요..!
저도 수명 자체보다는 범죄 계정들이 서로 뒤에서 연락하면서 특정 시간에 한 번에 게시물들에 대한 활동(게시, 리트윗)을 할 가능성이 높다고 봐요. 지인능욕의 특성상 한 번에 활동해야 알고리즘을 타고 더 무작위의 다수에게 노출될 가능성이 높으니까요.