몬스
몬스 · 네트워크 과학을 공부/연구합니다.
2022/03/08
너무 흥미로운 데이터여서 PORORO 알고리즘의 생각을 살짝 들여다 보았습니다.

감성분석 방법론은 크게 전통적인 어휘 기반(Lexicon-based) 방법과, 머신러닝 기반(ML-based) 방법으로 나눠집니다. 어휘 기반은 각 어휘 별로 점수를 매긴 '사전'을 이용하여 점수를 합산하여 감성을 평가하는 한편, 머신러닝 기반은 어휘들의 조합으로부터 감성이란 '정보'를 추출합니다.

PORORO가 사용한 자연어 처리 모델 RoBERTa는 머신러닝을 기반으로 감성을 분석하며, 어휘들 간의 조합을 통해 감성을 평가합니다. 이러한 머신러닝 기반 감성분석은 단순 어휘 사전을 이용하는 것보다 문장의 맥락을 더 잘 이해한다는 장점이 있습니다.
맥락을 이해한다는 것은 한 발자국 더 나아간 분석을 가능케 합니다. 예를 들면 똑같은 '페미니즘' 이라는 키워드를 사용하더라도, 어떤 키워드들과 함께 사용하는지에 따라 조금씩 다른 맥락을 형성할 수 있기 때문입니다. 
 
이제, 완벽하진 않지만 아주 단순한 방법으로 PORORO가 맥락을 다루는 방법을 살펴보려 합니다.

  • 먼저, 기사 제목에서 키워드(명사)를 추출했습니다. 
  • 그리고, ...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
복잡계 과학에 관심이 많고, 그 중 주로 네트워크 과학을 공부/연구/덕질 하고 있습니다.
657
팔로워 1.2K
팔로잉 602