네이버 AI 1위, 그런다고 사람들이 쓸까?
2024/04/08
4월 2일, 네이버클라우드 하이퍼클로바X 팀이 아카이브를 통해 테크니컬 리포트를 공개했습니다. 이 리포트에는 하이퍼클로바X가 영어, 수학, 코딩 분야에서 경쟁력을 갖추고 있으며, 한국 문화에 맞춘 대규모 언어 모델로 한국어에 특화된 성능을 보유하고 있다고 설명하고 있습니다. 더 나아가 일본어, 아랍어 등 다국어 능력과 안정성 측면에서도 높은 지표를 보유했다는 것을 강조했습니다.
특히, 현시점에서 가장 뛰어난 성능을 자랑하고 있는 라마2, GPT-4, SOLAR 등을 비교군으로 선정하여 다양한 지표에서 이들보다 높은 성능을 갖추었다고 소개했는데요. 대표적으로 몇 가지 살펴보면 다음과 같습니다.
먼저, 토크나이저 지표입니다. 한국어를 잘 이해하고 처리할 수 있는 언어 모델을 만들기 위해서는 '토큰화'라는 과정이 매우 중요합니다. 토큰화는 문장을 의미 있는 작은 단위로 나누는 것을 말하는데요. 한국어는 그 구조상 단어가 변형되기 쉽고, 같은 단어라도 문맥에 따라 의미가 달라질 수 있기 때문에 이 과정이 특히 중요합니다.
예를 들어, 한국어에서는 같은 명사에 추가되는 어미에 따라 동사가 될 수도, 형용사가 될 수도 있습니다. 글로벌 기업들은 각 나라별 언어적 특성을 완벽히 파악하기 쉽지 않아, 토큰화 과정에서 어려움을 겪는 경우가 많은데요. 이로 인해, 같은 의미를 가진 문장이라 할지라도 영어로 답변을 받았을 때보다 한글로 답변을 받았을 때 인코딩이 비효율적인 경우가 많았습니다. 네이버는 이를 효과적으로 처리할 수 있도록 연구했고, 더 적은 비용으로 더 좋은 성능을 발휘할 수 있게 됐습니다.
@유한균
국내 빅테크 기업의 2강이라 불리는 카카오도 여전히 어려워 하고 있는 걸 보면, 네이버의 업적을 더 치하해야 하는 것도 맞습니다. 최근 조직개편 등을 통해 체질 개선하려는 의지가 보이는 만큼, 결과는 조금 더 기다려 봐야겠습니다ㅎㅎ 좋은 댓글 감사합니다 :)
@김재경
더 바라는 건 욕심인 것 같다가도, 더 잘 했으면 하는 마음이 드는 건 어쩔 수 없더라구요.
오픈소스 진영이 힘을 내야 또 위기 의식을 느끼고 경쟁이 될 것도 같구요ㅎㅎ
오늘도 좋은 댓글 감사합니다 :)
정말 한국에서 이런 언어모델을 한다는 것 자체가 기적이죠. 사실 자부심 가질 일입니다. 잘 됐으면 좋겠는데, 연관 사업이 얼마나 잘 되서 생태계를 구축할 수 있는지가 관건이 될 것 같습니다.
대형언어모델을 구축하고 상용화할 수 있다는 것만으로도 네이버가 굉장한 기술력을 가졌다는 것은 인정해야 하긴 합니다. 하지만 B2B를 적용하기 어려운 직군에게는 결국 좋은 퀄리티의 AI를 쓰지 못한다는 이야기가 되고(저만 하더라도 소속이 없으니 써먹기 어렵죠), 무엇보다 오픈소스 진영이, 국내 기업들을 포함해서 무섭게 치고 올라오는데 이에 대응할 능력이 어느 정도일지 파악이 쉽지 않은 상황으로 보입니다.
그럼에도 토큰 수에 대한 설명과 AI주권에 대해 다시 한 번 생각해보게 되는 네이버의 행보와 이를 소개해주시는 재훈님의 글의 가치는 높게 평가해야 한다고 생각합니다 ㅎㅎ
@김재경
더 바라는 건 욕심인 것 같다가도, 더 잘 했으면 하는 마음이 드는 건 어쩔 수 없더라구요.
오픈소스 진영이 힘을 내야 또 위기 의식을 느끼고 경쟁이 될 것도 같구요ㅎㅎ
오늘도 좋은 댓글 감사합니다 :)
정말 한국에서 이런 언어모델을 한다는 것 자체가 기적이죠. 사실 자부심 가질 일입니다. 잘 됐으면 좋겠는데, 연관 사업이 얼마나 잘 되서 생태계를 구축할 수 있는지가 관건이 될 것 같습니다.
대형언어모델을 구축하고 상용화할 수 있다는 것만으로도 네이버가 굉장한 기술력을 가졌다는 것은 인정해야 하긴 합니다. 하지만 B2B를 적용하기 어려운 직군에게는 결국 좋은 퀄리티의 AI를 쓰지 못한다는 이야기가 되고(저만 하더라도 소속이 없으니 써먹기 어렵죠), 무엇보다 오픈소스 진영이, 국내 기업들을 포함해서 무섭게 치고 올라오는데 이에 대응할 능력이 어느 정도일지 파악이 쉽지 않은 상황으로 보입니다.
그럼에도 토큰 수에 대한 설명과 AI주권에 대해 다시 한 번 생각해보게 되는 네이버의 행보와 이를 소개해주시는 재훈님의 글의 가치는 높게 평가해야 한다고 생각합니다 ㅎㅎ