서울-양평 고속도로 사업 백지화 선언, 기사에는 어떤 변화?
2023/07/09
여러 해 전부터 건설이 추진돼 오던 서울-양평 고속도로를 둘러싸고 정치권 공방이 이어지고 있습니다. 서울 송파구 오금동/경기 하남시 감일동에서 시작해 경기 양평군을 잇는 도로인데요. 양평군 쪽 종점이 예비타당성 조사를 거친 지역(양평군 양서면)에서 다른 지역(양평군 강상면)으로 5월 갑자기 바뀌었습니다. 그런데 바뀐 지역 부근에 공교롭게도 영부인 김건희 여사 가족의 토지가 다수 위치한다는 사실이 드러나면서 특혜 의혹이 제기됐습니다.
야당의 공세가 이어지자 6일 원희룡 국토교통부 장관은 사업 자체를 백지화하겠다고 선언했죠. 이후 다시 야당의 사과를 전제로 사업을 재개할 의향이 있다고 밝히면서 새로운 논란이 이어지고 있습니다.
저는 정치 1도 모르지만… 이런 식의 정치적 수 싸움이 언론에는 영향을 미칠까 궁금해서 텍스트 분석을 해봤습니다. 한계가 많은 분석일테지만, 재미로 봐주세요.
0. 데이터
한국언론재단의 뉴스 데이터베이스 빅카인즈를 통해 조사할 수 있는 모든 언론사(중앙지, 방송, 경제지, 지역지, 전문지) 기사 가운데, 7월 1일부터 7월 8일 정오까지 발행된 ‘양평’ 언급 뉴스 872건의 데이터를 수집했습니다.
빅카인즈 데이터 가운데에는 기사 본문 시작 200자를 모은 항목과 추출한 주요 키워드가 있습니다. 기사 초반 200자를 중심으로 단어 출현 빈도 및 네트워크 분석을 했습니다. 전체 기사를 다루지 못해 한계가 있지만, 초반 200자에 소위 ‘리드’라고 하는 기사의 핵심이 대부분 담겨 있어 개요와 동향은 참고할 수 있습니다. 일부는 참조를 위해 주요 키워드로도 분석해봤습니다.
양평 언급 뉴스는 원 장관이 사업 백지화를 선언한 7월 6일부터 급증했습니다(이전 하루 수십 건에서 이후 수백 건으로). 원 장관의 선언이 미친 영향을 보는 게 목적이므로 데이터를 7월 5일 이전과 6일 이후로 나눠 변화를 봤습니다.
1. 동시 출현 단어 네트워크
기사 첫머리에서 동시에 등장한 단어는 의미상 관련성이 높을 가능성이 큽니다. 이런 단어의 네트워크를 살핀 단어 동...
1. 동시 출현 단어 네트워크
기사 첫머리에서 동시에 등장한 단어는 의미상 관련성이 높을 가능성이 큽니다. 이런 단어의 네트워크를 살핀 단어 동...
미국과 한국에서 기자상을 수상한 과학전문기자입니다. 과학잡지·일간지의 과학담당과 편집장을 거쳤습니다. '사라져 가는 것들의 안부를 묻다' '인류의 기원(공저)' 등을 썼고 '스마트 브레비티' '화석맨' '왜 맛있을까' '사소한 것들의 과학' '빌트' 등을 번역했습니다.
@서지은 뭐랄까 대환장 파티(?) 같은 느낌이죠. 건설 관련 사실 따로, 정치 공방 따로, 의혹 따로, 국토부 대응 따로 이런 형국 같습니다.
갑작스런 백지화 선언으로, 해당 군수는 기자회견을 열었고 기존 안이 있는데 왜 아예 팩트를 물어본 민주당을 가짜뉴스 의혹으로 치부하면서 다음 정부에 하라는 원희룡장관의 발언은 저기 뭔가 있구나^^ 의혹을 낳기에 충분했죠 ㅎㅎ
@하진우 오 기대됩니다. 말씀하신 부분에 대한 절대적 기준이 없다 보니 반복작업을 통하거나 경험에 의존하게 되는데, 이런 부분 개선하는 데 도움이 될 것 같습니다. 이런 실용적 이유 아니더라도, 무척 재밌을 것 같네요!
@윤신영 그렇군요! 수고하셨습니다. 이달 중으로 저도 시맨틱 네트워크에 노드, 엣지 포함하는 정량적 기준이나 threshold에 관해 글 한 번 써볼게요.
@하진우 안녕하세요! 역시 전문가셔서 자세히 보셨네요. 사용한 방법은 고전적인 방법입니다. 전 R을 사용하고 tidytext의 토큰화 함수, 그리고 KoNLP형태소분석기를 썼어요. 노드는 통계 지표로 선정했습니다. 토큰이 깔끔하지 않게 나오는 경우는 정제를 했지만, 많진 않았어요. 아무래도 기사라서 그런 듯합니다. 같은 방법으로 트윗도 종종 분석해보는데 훨씬 지저분하더군요.
@윤신영 제가 보기에는 분석된 결과의 토큰화 상태가 상당히 깔끔합니다. 이러기 쉽지 않은데... 토크나이저는 무엇을 썼을까요. 그리고 네트워크에 반영된 노드와 엣지 선택에는 통계적 지표를 활용했는지 LLM을 썼는지도 궁금해요!
네 정말 좋은 시도였다고 생각합니다
산뜻했습니다. 어느 정도 객관적인 자료가 아닐까 생각합니다
모든 정치인들이 자기 나름대로 의미를 해석하고 생각하고 말하는 것과 달리
객관적인 자료가 되지 않나...그런 시도를 하신것에 신선한 박수를 보내드립니다!
@반복 정치적으로 변화하는 양상이 기사에 드러나는지 궁금했어요. 데이터를 통해 변화를 확인해 보고자 시도했는데요. 생각보다는 내용이 선명하게 드러나지는 않았습니다. 그래도 여러 역학관계나 구도가 변화하고 있고, 무엇보다 내용 초점이 옮아가는 건 볼 수 있었습니다.
오 이렇게 흐름을 볼 수도 있군요..
우리도 확인 할 수 있는지 궁금하네요 ㅎ
좋은 기사 잘 봤습니다.
네 정말 좋은 시도였다고 생각합니다
산뜻했습니다. 어느 정도 객관적인 자료가 아닐까 생각합니다
모든 정치인들이 자기 나름대로 의미를 해석하고 생각하고 말하는 것과 달리
객관적인 자료가 되지 않나...그런 시도를 하신것에 신선한 박수를 보내드립니다!
@반복 정치적으로 변화하는 양상이 기사에 드러나는지 궁금했어요. 데이터를 통해 변화를 확인해 보고자 시도했는데요. 생각보다는 내용이 선명하게 드러나지는 않았습니다. 그래도 여러 역학관계나 구도가 변화하고 있고, 무엇보다 내용 초점이 옮아가는 건 볼 수 있었습니다.
@서지은 뭐랄까 대환장 파티(?) 같은 느낌이죠. 건설 관련 사실 따로, 정치 공방 따로, 의혹 따로, 국토부 대응 따로 이런 형국 같습니다.
갑작스런 백지화 선언으로, 해당 군수는 기자회견을 열었고 기존 안이 있는데 왜 아예 팩트를 물어본 민주당을 가짜뉴스 의혹으로 치부하면서 다음 정부에 하라는 원희룡장관의 발언은 저기 뭔가 있구나^^ 의혹을 낳기에 충분했죠 ㅎㅎ
@윤신영 그렇군요! 수고하셨습니다. 이달 중으로 저도 시맨틱 네트워크에 노드, 엣지 포함하는 정량적 기준이나 threshold에 관해 글 한 번 써볼게요.
@하진우 안녕하세요! 역시 전문가셔서 자세히 보셨네요. 사용한 방법은 고전적인 방법입니다. 전 R을 사용하고 tidytext의 토큰화 함수, 그리고 KoNLP형태소분석기를 썼어요. 노드는 통계 지표로 선정했습니다. 토큰이 깔끔하지 않게 나오는 경우는 정제를 했지만, 많진 않았어요. 아무래도 기사라서 그런 듯합니다. 같은 방법으로 트윗도 종종 분석해보는데 훨씬 지저분하더군요.
오 이렇게 흐름을 볼 수도 있군요..
우리도 확인 할 수 있는지 궁금하네요 ㅎ
좋은 기사 잘 봤습니다.