2022/03/08
너무 흥미로운 데이터여서 PORORO 알고리즘의 생각을 살짝 들여다 보았습니다.
감성분석 방법론은 크게 전통적인 어휘 기반(Lexicon-based) 방법과, 머신러닝 기반(ML-based) 방법으로 나눠집니다. 어휘 기반은 각 어휘 별로 점수를 매긴 '사전'을 이용하여 점수를 합산하여 감성을 평가하는 한편, 머신러닝 기반은 어휘들의 조합으로부터 감성이란 '정보'를 추출합니다.
PORORO가 사용한 자연어 처리 모델 RoBERTa는 머신러닝을 기반으로 감성을 분석하며, 어휘들 간의 조합을 통해 감성을 평가합니다. 이러한 머신러닝 기반 감성분석은 단순 어휘 사전을 이용하는 것보다 문장의 맥락을 더 잘 이해한다는 장점이 있습니다.
맥락을 이해한다는 것은 한 발자국 더 나아간 분석을 가능케 합니다. 예를 들면 똑같은 '페미니즘' 이라는 키워드를 사용하더라도, 어떤 키워드들과 함께 사용하는지에 따라 조금씩 다른 맥락을 형성할 수 있기 때문입니다.
이제, 완벽하진 않지만 아주 단순한 방법으로 PORORO가 맥락을 다루는 방법을 살펴보려 합니다.
감성분석 방법론은 크게 전통적인 어휘 기반(Lexicon-based) 방법과, 머신러닝 기반(ML-based) 방법으로 나눠집니다. 어휘 기반은 각 어휘 별로 점수를 매긴 '사전'을 이용하여 점수를 합산하여 감성을 평가하는 한편, 머신러닝 기반은 어휘들의 조합으로부터 감성이란 '정보'를 추출합니다.
PORORO가 사용한 자연어 처리 모델 RoBERTa는 머신러닝을 기반으로 감성을 분석하며, 어휘들 간의 조합을 통해 감성을 평가합니다. 이러한 머신러닝 기반 감성분석은 단순 어휘 사전을 이용하는 것보다 문장의 맥락을 더 잘 이해한다는 장점이 있습니다.
맥락을 이해한다는 것은 한 발자국 더 나아간 분석을 가능케 합니다. 예를 들면 똑같은 '페미니즘' 이라는 키워드를 사용하더라도, 어떤 키워드들과 함께 사용하는지에 따라 조금씩 다른 맥락을 형성할 수 있기 때문입니다.
이제, 완벽하진 않지만 아주 단순한 방법으로 PORORO가 맥락을 다루는 방법을 살펴보려 합니다.
- 먼저, 기사 제목에서 키워드(명사)를 추출했습니다.
- 그리고, ...
@Homeeun님. 댓글 감사합니다! 책은 읽지 않았는데, 내용이 언급된 강연을 들어서 대략적인 줄거리만 알고 있어요. 무언가 먹먹함이 느껴지는 스토리였다는 기억이.. 우리는 클라라에게 이입이 되지만, 소설 속에서는 그러지 못한 이유는 아마도 우리에게는 클라라의 '서사'가 들렸기 때문이겠죠..?
@박 스테파노님. 실제 다언어 학습 모델을 한국어에 그대로 적용했을 때 성능이 낮은 것이 문제가 되어, 말씀하신 것처럼 한국어의 언어학적 특징을 고려한 학습이 이루어진다고 하네요!
처음에는 '조사', '동사'도 포함해서 만들어 봤는데 키워드로 '의', '은' 이런 게 큼지막하게 나와 오히려 잘 모르게 되어 버려서 '명사'로 한정했어요..ㅠ
얼룩소에 쓰시는 글을 보면 현업에서 얼마나 촌철살인급 감각을 선보이셨을지 조금이나마 상상이 갑니다..ㅎㅎ 읽고 댓글 남겨주셔서 감사합니다~
흥미롭게 읽었습니다. 사실, 자연어 분석이라는 시도 자체가 '멍청함'과 '똑똑함'의 극단으로 갈 위험성이 항상 내재되어 있는 것 같습니다. 특히 머신러닝은 '학습량'이 관건인데, 기계데이터나 시퀀셜 로그 같은 것은 그 '학습량'이 담보되지만, 자연어를 기반으로 하는 텍스트 분석은 그 학습량이 제한적이라는 것이 가장 큰 멍청이로 이끄는 이유가 되지 않을까 봅니다.
그리고, 제가 때마침 '주어'이야기를 하며, 생각을 해 보건데, '명사'는 판단의 대상을 이끄는 품사적 특징이 있는데, 한국말이 '문장성분'과 '격'이 매우 중요해 조사에 대한 자연어 학습 알고리즘이 있는지, 그리고 그 명사들과 호응하는 서술어가 어떻게 편재되었는지를 살펴 보아야 하는데, 과연 이런 '언어학'적 요소가 얼마나 고려되었는지도 궁금한 상황이네요.
다음 포털의 검색어 엔진을 만든 다음소프트란 회사랑 자연어 빅데이터 때문에 이런 저런 토의를 하던 생각이 나네요. 가끔 현업이 그리울 때가 있네요. 몬스님 글을 보니 더.
잘 읽고 갑니다.
어쩌면 가즈오 이시구로의 클라라와 태양이 좋은 예시가 될 수 있겠어요. 인공지능은 죄가 없죠.
흥미롭게 읽었습니다. 사실, 자연어 분석이라는 시도 자체가 '멍청함'과 '똑똑함'의 극단으로 갈 위험성이 항상 내재되어 있는 것 같습니다. 특히 머신러닝은 '학습량'이 관건인데, 기계데이터나 시퀀셜 로그 같은 것은 그 '학습량'이 담보되지만, 자연어를 기반으로 하는 텍스트 분석은 그 학습량이 제한적이라는 것이 가장 큰 멍청이로 이끄는 이유가 되지 않을까 봅니다.
그리고, 제가 때마침 '주어'이야기를 하며, 생각을 해 보건데, '명사'는 판단의 대상을 이끄는 품사적 특징이 있는데, 한국말이 '문장성분'과 '격'이 매우 중요해 조사에 대한 자연어 학습 알고리즘이 있는지, 그리고 그 명사들과 호응하는 서술어가 어떻게 편재되었는지를 살펴 보아야 하는데, 과연 이런 '언어학'적 요소가 얼마나 고려되었는지도 궁금한 상황이네요.
다음 포털의 검색어 엔진을 만든 다음소프트란 회사랑 자연어 빅데이터 때문에 이런 저런 토의를 하던 생각이 나네요. 가끔 현업이 그리울 때가 있네요. 몬스님 글을 보니 더.
잘 읽고 갑니다.
@Homeeun님. 댓글 감사합니다! 책은 읽지 않았는데, 내용이 언급된 강연을 들어서 대략적인 줄거리만 알고 있어요. 무언가 먹먹함이 느껴지는 스토리였다는 기억이.. 우리는 클라라에게 이입이 되지만, 소설 속에서는 그러지 못한 이유는 아마도 우리에게는 클라라의 '서사'가 들렸기 때문이겠죠..?
@박 스테파노님. 실제 다언어 학습 모델을 한국어에 그대로 적용했을 때 성능이 낮은 것이 문제가 되어, 말씀하신 것처럼 한국어의 언어학적 특징을 고려한 학습이 이루어진다고 하네요!
처음에는 '조사', '동사'도 포함해서 만들어 봤는데 키워드로 '의', '은' 이런 게 큼지막하게 나와 오히려 잘 모르게 되어 버려서 '명사'로 한정했어요..ㅠ
얼룩소에 쓰시는 글을 보면 현업에서 얼마나 촌철살인급 감각을 선보이셨을지 조금이나마 상상이 갑니다..ㅎㅎ 읽고 댓글 남겨주셔서 감사합니다~
어쩌면 가즈오 이시구로의 클라라와 태양이 좋은 예시가 될 수 있겠어요. 인공지능은 죄가 없죠.