차별을 만드는 데이터, 기회를 만드는 데이터
2024/01/05
자연은 사람을 차별하지 않는다
하늘에서 비가 내릴 때 인종과 성별, 국적과 계층에 따라서 어떤 사람은 더 적시고, 어떤 사람은 더 적실까? 누구는 우산도 안 쓰고 가는데 비를 피하고 누구는 비를 피할 수 없을까? 햇살은 어떨까? 바람은 어떨까? 남자에게는 햇살이 더 비치고 여자에게는 햇살이 더 비치지 않을까? 백인에게는 바람이 더 불고 흑인에게는 바람이 더 불지 않을까? 그런 기묘하고 이상한 일은 발견할 수 없다. 자연은 사람을 차별하지 않기 때문이다. 사람을 차별하는 것은 신도, 자연도 아니고 사람이다.
데이터 과학자이자 사회과학자인 필자가 작년 말에 출간한 '우리에게는 다른 데이터가 필요하다 (세종서적 2023)'은 데이터 과학에 관한 책이고, 정부와 정책에 관한 책이지다. 동시에 책의 부제('차별을 만드는 데이터, 기회를 만드는 데이터')처럼 차별과 기회에 대한 책이다.
필자는 미국의 공공 영역에서 일하는 데이터 과학자다. 코드 포 아메리카(Code for America)란 시빅 테크 단체의 직원으로 미국의 캘리포니아, 콜로라도, 뉴멕시코 주 정부와 일하며 이곳의 어려운 형편에 있는 사람들이 사람들이 정부 혜택을 더 쉽게 누릴 수 있도록 돕는다. 동시에 존스홉킨스대의 SNF 아고라 연구소(SNF Agora Institute)에서 민주주의와 시민사회를 공공 빅데이터로 연구하는 연구원이다.
데이터 과학자로서의 경험과 사회과학자로서의 지식을 바탕으로 평소에 관심있던 주제를 한국의 독자들에게 소개하기 위해 책을 쓰면서 차별과 기회에 대한 이야기를 피할 수 없었다.
사람이 사람을 차별한다
그 이유는 자연은 우리를 차별하지 않는데도 우리가 사는 사회에 각종 차별로 인한 불평등이 차고 넘치는 이유는 사회에 구조적 모순이 있기 때문이다.
자연은 우리에게 부자는 이 동네에 살고, 가난한 사람은 저 동네에 살라 명하지 않는다. 그럼에도 불구하고 어느 나라, 어느 지역을 가든 사회적 계층에 따른 주거지 분리(residential segregation)는 거의 일반적 ...
하늘에서 비가 내릴 때 인종과 성별, 국적과 계층에 따라서 어떤 사람은 더 적시고, 어떤 사람은 더 적실까? 누구는 우산도 안 쓰고 가는데 비를 피하고 누구는 비를 피할 수 없을까? 햇살은 어떨까? 바람은 어떨까? 남자에게는 햇살이 더 비치고 여자에게는 햇살이 더 비치지 않을까? 백인에게는 바람이 더 불고 흑인에게는 바람이 더 불지 않을까? 그런 기묘하고 이상한 일은 발견할 수 없다. 자연은 사람을 차별하지 않기 때문이다. 사람을 차별하는 것은 신도, 자연도 아니고 사람이다.
데이터 과학자이자 사회과학자인 필자가 작년 말에 출간한 '우리에게는 다른 데이터가 필요하다 (세종서적 2023)'은 데이터 과학에 관한 책이고, 정부와 정책에 관한 책이지다. 동시에 책의 부제('차별을 만드는 데이터, 기회를 만드는 데이터')처럼 차별과 기회에 대한 책이다.
필자는 미국의 공공 영역에서 일하는 데이터 과학자다. 코드 포 아메리카(Code for America)란 시빅 테크 단체의 직원으로 미국의 캘리포니아, 콜로라도, 뉴멕시코 주 정부와 일하며 이곳의 어려운 형편에 있는 사람들이 사람들이 정부 혜택을 더 쉽게 누릴 수 있도록 돕는다. 동시에 존스홉킨스대의 SNF 아고라 연구소(SNF Agora Institute)에서 민주주의와 시민사회를 공공 빅데이터로 연구하는 연구원이다.
데이터 과학자로서의 경험과 사회과학자로서의 지식을 바탕으로 평소에 관심있던 주제를 한국의 독자들에게 소개하기 위해 책을 쓰면서 차별과 기회에 대한 이야기를 피할 수 없었다.
사람이 사람을 차별한다
그 이유는 자연은 우리를 차별하지 않는데도 우리가 사는 사회에 각종 차별로 인한 불평등이 차고 넘치는 이유는 사회에 구조적 모순이 있기 때문이다.
자연은 우리에게 부자는 이 동네에 살고, 가난한 사람은 저 동네에 살라 명하지 않는다. 그럼에도 불구하고 어느 나라, 어느 지역을 가든 사회적 계층에 따른 주거지 분리(residential segregation)는 거의 일반적 ...
존스홉킨스 SNF 아고라 연구소 연구과학자. 미국의 대표적 시빅 테크 단체인 코드 포 아메리카(Code for America)에서 데이터 과학자로 일했다. <우리에게는 다른 데이터가 필요하다 (세종서적 2023)>의 저자.
저는 여러 자리에서 생성형 AI가 사회에 가지는 의미를 양방향 모두 다루고 있는데요. 생성형 AI를 둘러싼 여러 이슈 역시 '데이터'가 정말 중요한 점 중 하나다보니 글 내용에 동의하며 읽었습니다.
예를 들어 생성형 AI의 편향성 문제의 경우, 인간의 편향성이 반영된 데이터를 학습한 생성형 AI는 편향을 그대로 보일 확률이 높습니다. 이를 해결할 큰 두 가지 방향은 장기적으로는 인간 사회 내에서 편향성을 줄이는 것이고, 단기적으로는 생성형 AI가 편향적인 학습을 하지 않게 하거나 편향적 결과물을 출력하지 않게 하는 등 생성형 AI를 건드는 것이겠죠.
저작권 문제의 경우에도, 데이터에 대한 접근이 중요해지죠. 데이터에 대한 저작권을 어디까지 인정할 것인가에 따라 생성형 AI는 기존 저작권을 과하게 침해하고 차별을 늘리겠지만, 범위에 대한 확실한 가이드라인(23년 12월 28일에 제시된 가이드라인과 같은 시도)이 잘 제시된다면 여러 창작자들의 역량을 더 발휘할 수 있게 해주겠죠.
데이터에 대한 정부의 섬세하고 유연한, 그러면서도 빠른 접근이 필요한 시대라는 점에 동의합니다.
저는 여러 자리에서 생성형 AI가 사회에 가지는 의미를 양방향 모두 다루고 있는데요. 생성형 AI를 둘러싼 여러 이슈 역시 '데이터'가 정말 중요한 점 중 하나다보니 글 내용에 동의하며 읽었습니다.
예를 들어 생성형 AI의 편향성 문제의 경우, 인간의 편향성이 반영된 데이터를 학습한 생성형 AI는 편향을 그대로 보일 확률이 높습니다. 이를 해결할 큰 두 가지 방향은 장기적으로는 인간 사회 내에서 편향성을 줄이는 것이고, 단기적으로는 생성형 AI가 편향적인 학습을 하지 않게 하거나 편향적 결과물을 출력하지 않게 하는 등 생성형 AI를 건드는 것이겠죠.
저작권 문제의 경우에도, 데이터에 대한 접근이 중요해지죠. 데이터에 대한 저작권을 어디까지 인정할 것인가에 따라 생성형 AI는 기존 저작권을 과하게 침해하고 차별을 늘리겠지만, 범위에 대한 확실한 가이드라인(23년 12월 28일에 제시된 가이드라인과 같은 시도)이 잘 제시된다면 여러 창작자들의 역량을 더 발휘할 수 있게 해주겠죠.
데이터에 대한 정부의 섬세하고 유연한, 그러면서도 빠른 접근이 필요한 시대라는 점에 동의합니다.