다가오는 AI 콘텐츠 시대를 위한 웹 크롤링 프로토콜 협의 참여하기 by 이성규

다가오는 AI 콘텐츠 시대를 위한 웹 크롤링 프로토콜 협의 참여하기

이성규 · 스닙팟 Founder & CEO

2023/12/05

구글 검색 팀에서는 생성 AI 콘텐츠를 고려한 Robots.txt 표준 업데이트를 리딩하면서 관련 업계의 참여를 기대하고 있어요.

최근 LLM 등 생성 AI 모델은 주로 인터넷의 공개된 콘텐츠를 크롤링하여 만들어집니다. 이런 AI가 생성한 새로운 콘텐츠들은 원본 콘텐츠 생산자의 명시적 동의 없이 크롤링 되는 경우가 많습니다.

AI에서 사용되는 콘텐츠 범위는 계속 넓어지고 있고 콘텐츠 생산자는 본인 소유 콘텐츠가 어떤 경우에만 허락할지 결정하고 싶지만, 현재의 웹 크롤러는 이러한 AI 목적에 세분화된 목적과 권리 표현이 어렵습니다. 게다가 RAG (Retrieval-Augmented Generation) 와 같은 AI 확장 기술들은 모델이 아닌 서비스로서 인터넷에 공개된 콘텐츠를 가져와 활용하는데요. 이러한 방식으로 콘텐츠가 이용되는 것에 대해 “콘텐츠 생산자가 동의를 했는가?” 등 관련 논의 역시 아직 충분히 이뤄졌다고 볼 수 없습니다.

현재 기존 Robots.txt 프로토콜 을 활용해서 크롤링 될지 여부를 호스트에서 의사 표시할 수 있는데 이 방식은 주로 “All or Nothing” 으로 사용됩니다. 또한 개별 Bot 이름을 사용해야 하기 때문에 콘텐츠 생산자의 의도를 제대로 표현하기 어렵습니다. 예를 들어 OpenAI GPTBot 은 ‘User-agent’: GPTBot 을 통해 차단 여부 의사표시를 하도록 가이드 하고 있습니다. 호스트는 이렇게 특정 봇 이름을 알고 있어야 비로소 의사 표현을 할 수 있습니다. 이러한 Robots.txt 프로토콜의 한계점은 AI 콘텐츠 시대에 더 큰 문제가 될 것입니다.

최근 구글은 2023 Google I/O 중 향후 AI 콘텐츠의 사용성을 고려한 프로토콜 업데이트 협의(AI Web Publisher Controls)를 제안했습니다. 이는 전 세계 기술 및 콘텐츠 퍼블리...