네이버 AI 1위, 그런다고 사람들이 쓸까?

이재훈
이재훈 인증된 계정 · IT 커뮤니케이터
2024/04/08
ⓒ DALL-E3 (편집 : 이재훈)

HyperCLOVA X Technical Report

4월 2일, 네이버클라우드 하이퍼클로바X 팀이 아카이브를 통해 테크니컬 리포트를 공개했습니다. 이 리포트에는 하이퍼클로바X가 영어, 수학, 코딩 분야에서 경쟁력을 갖추고 있으며, 한국 문화에 맞춘 대규모 언어 모델로 한국어에 특화된 성능을 보유하고 있다고 설명하고 있습니다. 더 나아가 일본어, 아랍어 등 다국어 능력과 안정성 측면에서도 높은 지표를 보유했다는 것을 강조했습니다.  

특히, 현시점에서 가장 뛰어난 성능을 자랑하고 있는 라마2, GPT-4, SOLAR 등을 비교군으로 선정하여 다양한 지표에서 이들보다 높은 성능을 갖추었다고 소개했는데요. 대표적으로 몇 가지 살펴보면 다음과 같습니다. 
ⓒ HyperclovaX Technical Report (수치가 작을수록 효율적이라는 의미)
먼저, 토크나이저 지표입니다. 한국어를 잘 이해하고 처리할 수 있는 언어 모델을 만들기 위해서는 '토큰화'라는 과정이 매우 중요합니다. 토큰화는 문장을 의미 있는 작은 단위로 나누는 것을 말하는데요. 한국어는 그 구조상 단어가 변형되기 쉽고, 같은 단어라도 문맥에 따라 의미가 달라질 수 있기 때문에 이 과정이 특히 중요합니다.

예를 들어, 한국어에서는 같은 명사에 추가되는 어미에 따라 동사가 될 수도, 형용사가 될 수도 있습니다. 글로벌 기업들은 각 나라별 언어적 특성을 완벽히 파악하기 쉽지 않아, 토큰화 과정에서 어려움을 겪는 경우가 많은데요. 이로 인해, 같은 의미를 가진 문장이라 할지라도 영어로 답변을 받았을 때보다 한글로 답변을 받았을 때 인코딩이 비효율적인 경우가 많았습니다. 네이버는 이를 효과적으로 처리할 수 있도록 연구했고, 더 적은 비용으로 더 좋은 성능을 발휘할 수 있게 됐습니다. 
...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
AI 스타트업 BD, 금융사 DT 전략/기획 등의 업무를 경험하고 현재는 IT 커뮤니케이터로 활동하고 있습니다. IT 트렌드 레터 '테크잇슈'를 운영하고 있습니다. 구독 : https://page.stibee.com/subscriptions/297134
126
팔로워 178
팔로잉 43