☕️ 보고 듣고 말하는 AI 시대의 도래
2023/10/11
[AI] #빅테크 #멀티모달AI
보고 듣고 말하는 AI 시대의 도래
구글 바드(Bard)의 업데이트를 시작으로 '멀티 모달(Multi Modality)' LLM(대규모 언어 모델)의 시기가 금방 다가오면서 빅테크 간의 AI '비즈니스화' 경쟁이 벌어질 것이라는 예상을 전해드린 적이 있어요. 멀티모달은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이고, 이런 다양한 채널의 '모달리티(Modality, 양식)'를 동시에 받아들여서 학습하고 사고하는 AI를 '멀티모달 AI'라고도 합니다.
쉽게 말하면 사람이 사물을 받아들이는 방식으로 학습하는 AI라고도 할 수 있죠. 이제는 구글을 필두로한 빅테크가 앞다투어 LLM의 다음 페이지인 이 멀티 모달로 본격 넘어가고 있는데요.
멀티 모달로 넘어간다는 것은 카메라에 탑재된 AI가 자신이 보고 있는 것을 이해할 수도 있고, 스피커로 들어오는 음성도 이해하게 된다는 것이에요. 소프트웨어에만 머물러 있던 AI가 하드웨어와 결합하면서 실제 세계에서 더 폭넓은 소통을 하고 활동하게 된다는 것이기도 하죠. 또, 각 빅테크가 개발 속도를 더 내면서, 더 광범위한 경쟁이 빠르게 진행 중임을 의미하기도 합니다.
쉽게 말하면 사람이 사물을 받아들이는 방식으로 학습하는 AI라고도 할 수 있죠. 이제는 구글을 필두로한 빅테크가 앞다투어 LLM의 다음 페이지인 이 멀티 모달로 본격 넘어가고 있는데요.
멀티 모달로 넘어간다는 것은 카메라에 탑재된 AI가 자신이 보고 있는 것을 이해할 수도 있고, 스피커로 들어오는 음성도 이해하게 된다는 것이에요. 소프트웨어에만 머물러 있던 AI가 하드웨어와 결합하면서 실제 세계에서 더 폭넓은 소통을 하고 활동하게 된다는 것이기도 하죠. 또, 각 빅테크가 개발 속도를 더 내면서, 더 광범위한 경쟁이 빠르게 진행 중임을 의미하기도 합니다.
이제 보고 듣고 말하는 챗GPT
오픈AI는 최근 챗GPT에 이미지 인식 기능과 텍스트-투-스피츠(TTS(Text-To-Speech)) 기...