생성 AI는 스스로를 붕괴시킬까?

바이라인네트워크
바이라인네트워크 인증된 계정 · 기술과 디지털 비즈니스를 다룹니다.
2023/08/30
출처 : canva
챗GPT를 비롯한 대부분의 생성 AI는 인터넷 상의 데이터를 기반으로 학습한다. 크롤링으로 대규모 데이터를 수집하거나 공개된 데이터셋을 활용한다.

그런데 인터넷에는 AI 생성 콘텐츠가 많이 존재한다. 특히 AI의 콘텐츠 생산 속도는 인간과 비교할 수 없을 정도로 빠르기 때문에 AI 생산 콘텐츠의 비중은 갈수록 커지고 있다. 유로폴(유럽연합 법집행협력청) 보고서에 따르면, 2026년이 되면 인터넷 상의 콘텐츠 90%는 AI가 만들어낸 것이 될 수 있다고 한다.

AI는 인터넷 상의 데이터를 수집해 학습하기 때문에, 이 90%의 콘텐츠는 다시 AI 학습에 이용될 가능성이 높다. 즉 AI가 만든 콘텐츠를 AI가 학습하고, 또 그 AI가 만든 콘텐츠를 다시 AI가 학습하는 재귀적 상황이 반복된다는 것이다.

생성 AI는 종종 가짜정보를 만들어 낸다. 할루시네이션이라 부르는 문제는 생성 AI의 본질적 한계다. 할루시네이션을 줄이기 위한 다양한 노력을 펼치고 있지만, 근원적으로 없애는 방법은 아직 개발되지 못했다. 이 때문에 생성 AI가 만든 콘텐츠에는 가짜정보가 포함될 수밖에 없다.

결과적으로 AI가 생성한 가짜정보를 다시 AI가 학습하게 된다. 결국 AI의 재귀적 학습이 가짜정보의 확산이라는 불행한 결과로 이어질 가능성이 제기된다. 쓰레기 정보를 학습해서 만들어낸 콘텐츠는 쓰레기일 수밖에 없기 때문이다.

미국 인터넷 언론사인 악시오스는 최근 “인터넷은...
바이라인네트워크
바이라인네트워크 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인