그 데이터는 과연 누구의 것일까? by 어거스트

그 데이터는 과연 누구의 것일까?

어거스트 · 지금을 읽는 미디어 뉴스레터

2023/10/18

안녕하세요! 에디터 찬비입니다.

이전 레터에서 할리우드 파업을 다루었는데요, 작가 파업의 결과에 대해 분석하는 이야기를 하던 팟캐스트에서 이런 이야기가 나오더라고요. 작가들은 AI를 만드는 회사에 가서 AI에 학습시킨 작업물에 대한 보상을 요구해야 한다고요. 무슨 말인가 했더니, 메타와 오픈AI에서 AI 모델에 학습시킨 것으로 유추되는 데이터셋에 저작권이 있는 출판물의 해적판이 포함되어 있었다고 하네요. AI 기업들은 데이터셋을 공개하지 않고 있지만, 더 좋은 성능을 위해 더 방대한 양의 데이터를 학습시켜야 하는 특성상 이러한 문제는 커지면 커졌지, 줄어들지는 않을 것으로 보입니다.

이런 뉴스를 접하면서 계속해서 비슷한 생각을 하게 됐어요. 빅테크와 AI 기업들이 올리고 있는 막대한 수익과 영향력, 과연 그 기반이 되는 데이터는 대체 누구의 것일까? 아직은 진행 중인 고민의 일부를 여기에 털어놓아봅니다.

🙅‍♀️ 내 데이터는 수집하지 말아줘

저의 개인적인 이야기로부터 시작해 보려고 합니다. 저는 학부에서 심리학을 전공했는데요, 당시에는 심리학 수업을 들으면 심리학 실험을 몇 개 이상 참여해야 했어요. 매 학기 그나마 쉽고 금방 끝나는 실험을 찾아다녔던 기억이 나요. 어떤 실험은 피곤하게 계속해서 무언가를 쳐다보고 클릭해야 했고, 어떤 건은 그냥 긴 서베이만 작성하면 됐기도 했어요. 그리고 그렇게 숙제처럼 한 것들은 누군가의 연구 논문의 기반이 되었겠죠.

심리학 연구를 할 때, 실험을 진행해 비교할 수 있다면 베스트이지만, 매번 실험으로 설계하는 것은 현실적으로 어렵기 때문에 자기보고식 서베이를 많이 활용하기도 했어요. 그때마다 저는 자기보고식 서베이의 신뢰도에 의문을 가졌습니다. 나도 내 마음을 잘 모르는 때가 많으니까요. 특히, 마케팅리서치에서 자주 묻는 ‘얼마까지 지불할 용의...