페미니즘 보도에 대한 알고리즘의 생각 들여다보기 by 몬스

몬스
네트워크 과학을 공부/연구합니다.

복잡계 과학에 관심이 많고, 그 중 주로 네트워크 과학을 공부/연구/덕질 하고 있습니다.

글

659

팔로워

1.2K

팔로잉

603

이 글의 관련 토픽

노동/인권/사회

alookso 데이터팀

2022/03/08

성차별의 구조 : 알고리즘편

조사 설계 alookso 데이터팀은 언론 보도가 사회를 들여다볼 좋은 창이라고 판단했습니다. 페미니즘 보도 역사를 통해 우리는 한국 사회가 무엇에 주목했는지 알 수 있을 것이라고 기대했죠. 빅카인즈에서 2015년 이후의 페미니즘 관련 보도를 전수조사했습니다. 2015년 1월 1일부터 2021년 12월 31일까지, 총 7년 동안의 보도 2만 1867건이 수집되었습니다. 빅카인즈에서는 54개 언론사의 보도를 제공합니다. 페미니즘, 페미니스트, 페미의 세 키워드 중 하나라도 제목과 본문에 포함하고 있는 기사를 ‘페미니즘 보도’라고 보고 분석 대상에 포함시켰습니다. 분석의 목적과 일치하지 않는 키워드는(카타르의 육상선수 페미 오구노데 등) 제외했습니다. 기사의 논조는 정형화된 기사 본문보다도 제목에서 보다 적나라하게 드러나는 경향이 있습니다. 지난 카우레터 여성이 헤드라인을 장식할 때에서 소개해드린 Pudding의 분석 역시 기사 제목을 조사한 결과입니다. 이번 글은 Pud...

몬스 · 네트워크 과학을 공부/연구합니다.

2022/03/08

페미니즘 보도에 대한 알고리즘의 생각 들여다보기

노동/인권/사회

너무 흥미로운 데이터여서 PORORO 알고리즘의 생각을 살짝 들여다 보았습니다.

감성분석 방법론은 크게 전통적인 어휘 기반(Lexicon-based) 방법과, 머신러닝 기반(ML-based) 방법으로 나눠집니다. 어휘 기반은 각 어휘 별로 점수를 매긴 '사전'을 이용하여 점수를 합산하여 감성을 평가하는 한편, 머신러닝 기반은 어휘들의 조합으로부터 감성이란 '정보'를 추출합니다.

PORORO가 사용한 자연어 처리 모델 RoBERTa는 머신러닝을 기반으로 감성을 분석하며, 어휘들 간의 조합을 통해 감성을 평가합니다. 이러한 머신러닝 기반 감성분석은 단순 어휘 사전을 이용하는 것보다 문장의 맥락을 더 잘 이해한다는 장점이 있습니다.
맥락을 이해한다는 것은 한 발자국 더 나아간 분석을 가능케 합니다. 예를 들면 똑같은 '페미니즘' 이라는 키워드를 사용하더라도, 어떤 키워드들과 함께 사용하는지에 따라 조금씩 다른 맥락을 형성할 수 있기 때문입니다.

이제, 완벽하진 않지만 아주 단순한 방법으로 PORORO가 맥락을 다루는 방법을 살펴보려 합니다.

먼저, 기사 제목에서 키워드(명사)를 추출했습니다.
그리고, ...

지금 가입하고
얼룩소의 모든 글을 만나보세요.

가입하고 이어읽기

이미 회원이신가요? 로그인

몬스
네트워크 과학을 공부/연구합니다.

복잡계 과학에 관심이 많고, 그 중 주로 네트워크 과학을 공부/연구/덕질 하고 있습니다.

글 659

팔로워 1.2K

팔로잉 603

임유나님 외

원글로 이동

댓글 남기기 (@멘션 가능)

몬스

2022/03/09

@Homeeun님. 댓글 감사합니다! 책은 읽지 않았는데, 내용이 언급된 강연을 들어서 대략적인 줄거리만 알고 있어요. 무언가 먹먹함이 느껴지는 스토리였다는 기억이.. 우리는 클라라에게 이입이 되지만, 소설 속에서는 그러지 못한 이유는 아마도 우리에게는 클라라의 '서사'가 들렸기 때문이겠죠..?

@박 스테파노님. 실제 다언어 학습 모델을 한국어에 그대로 적용했을 때 성능이 낮은 것이 문제가 되어, 말씀하신 것처럼 한국어의 언어학적 특징을 고려한 학습이 이루어진다고 하네요!
처음에는 '조사', '동사'도 포함해서 만들어 봤는데 키워드로 '의', '은' 이런 게 큼지막하게 나와 오히려 잘 모르게 되어 버려서 '명사'로 한정했어요..ㅠ
얼룩소에 쓰시는 글을 보면 현업에서 얼마나 촌철살인급 감각을 선보이셨을지 조금이나마 상상이 갑니다..ㅎㅎ 읽고 댓글 남겨주셔서 감사합니다~

얼룩커

2022/03/09

흥미롭게 읽었습니다. 사실, 자연어 분석이라는 시도 자체가 '멍청함'과 '똑똑함'의 극단으로 갈 위험성이 항상 내재되어 있는 것 같습니다. 특히 머신러닝은 '학습량'이 관건인데, 기계데이터나 시퀀셜 로그 같은 것은 그 '학습량'이 담보되지만, 자연어를 기반으로 하는 텍스트 분석은 그 학습량이 제한적이라는 것이 가장 큰 멍청이로 이끄는 이유가 되지 않을까 봅니다.

그리고, 제가 때마침 '주어'이야기를 하며, 생각을 해 보건데, '명사'는 판단의 대상을 이끄는 품사적 특징이 있는데, 한국말이 '문장성분'과 '격'이 매우 중요해 조사에 대한 자연어 학습 알고리즘이 있는지, 그리고 그 명사들과 호응하는 서술어가 어떻게 편재되었는지를 살펴 보아야 하는데, 과연 이런 '언어학'적 요소가 얼마나 고려되었는지도 궁금한 상황이네요.

다음 포털의 검색어 엔진을 만든 다음소프트란 회사랑 자연어 빅데이터 때문에 이런 저런 토의를 하던 생각이 나네요. 가끔 현업이 그리울 때가 있네요. 몬스님 글을 보니 더.

잘 읽고 갑니다.

홈은

2022/03/09

어쩌면 가즈오 이시구로의 클라라와 태양이 좋은 예시가 될 수 있겠어요. 인공지능은 죄가 없죠.

얼룩커

2022/03/09

잘 읽고 갑니다.

몬스

2022/03/09

홈은

2022/03/09

어쩌면 가즈오 이시구로의 클라라와 태양이 좋은 예시가 될 수 있겠어요. 인공지능은 죄가 없죠.

몬스 네트워크 과학을 공부/연구합니다.

몬스 네트워크 과학을 공부/연구합니다.

몬스
네트워크 과학을 공부/연구합니다.

몬스
네트워크 과학을 공부/연구합니다.