빅테크는 왜 안면인식기술을 경찰에 판매하지 않을까?

이 글은 코로나19와 백신에 관한 정보를 담고 있습니다. 코로나19와 백신에 관한 정확한 정보는 질병관리청 홈페이지에서 확인하시기 바랍니다.  질병관리청-코로나19예방접종 공식 홈페이지

정부가 출입국 심사 및 이상행동감지를 위한 인공지능 개발을 추진하면서, 법무부가 보유한 내·외국인 얼굴 사진 1억7천만건을 민간 업체가 사용할 수 있도록 했다는 한겨레 보도(10월 21일)가 있었습니다. 이 글에서는 이 정부추진사업의 개발 목표인 안면인식기술이 최근 몇 년 간 (특히 미국에서) 논란이 된 맥락을 간단히 설명하려 합니다.

어떤 기술을 만드는 사업인가요?

우선 법무부와 과기부에서 추진하고 있는 사업의 이름은 '인공지능 식별추적 시스템 구축 실증 및 검증'입니다. AI식별추적시스템의 목표는 크게 안면인식과 이상행동감지로 나뉩니다.

1. 안면인식
안면인식(facial recognition)은 얼굴 데이터를 사용하여 사람이 누구인지 맞추는 일이며, 다시 두 종류의 과업으로 나눠 생각할 수 있습니다.
과학기술정보통신부, 법무부, 정보통신산업진흥원, <’20년 인공지능 식별추적 시스템 구축 실증 및 검증 사업 공모안내서> (2020.1)
  • 1:1 매칭: 지점A(예: 여권 스캔)에서 찍은 얼굴이 지점B(예: 입국심사대 CCTV)에서 찍은 얼굴과 동일인물인지 여부를 판별합니다. 스마트폰의 페이스 ID도 이렇게 작동합니다.
  • 1:N 매칭: 한 지점(예: 입국심사대 CCTV)에서 찍은 얼굴이 DB에 이미 등록된 여러 얼굴 중 어떤 인물과 일치하는지 판별합니다. 보통 이것을 '식별(identification)'이라고 부릅니다. TV 수사물 보면 용의자 사진을 경찰이 보유한 범죄자 사진과 대조해주는 시스템이 종종 나오죠? 그런 개념입니다.
이번 사업에서 만들고자 하는 것은 가만히 서서 찍은 사진, 움직이는 영상, 혼자 또는 많은 사람이 찍힌 경우 등 여러 상황에서 위의 매칭 작업을 정확하게 처리하는 시스템입니다. 이를 위해 법무부와 과기부는 한국인 중 자동 출입국 심사 신청자 얼굴 사진 5760만장, 외국인 얼굴 사진 1억2000만장을 선정 업체들이 사용할 수 있도록 했습니다.

2. 이상행동감지
<’20년 인공지능 식별추적 시스템 구축 실증 및 검증 사업 공모안내서>
이상행동감지는 카메라에 찍힌 사람이 "이상행동"을 보이는지 판별하는 것이 목적입니다. NIPA의 사업공모안내서를 보면 "출입국 관리사무소로 돌진하는 경우", "공항에서 수상한 물건을 두고 가는 경우" 등을 예로 들고 있는데요. 단속이나 제지가 필요한 사람, 위험인물 등을 자동으로 찾아내겠다는 말입니다. 컴퓨터가 행동 패턴을 찾아내려면 특정한 인물이 영상의 시간 순서에 따라 어떻게 움직이는지 따라가는 알고리즘이 필요하고, 이렇게 따라가는 일을 보통 '추적(tracking)'이라고 합니다.

이를 위해서는 인천공항 출입국 관리 구역에 설치된 CCTV 데이터를 참여 업체에게 제공하고 있다고 합니다. 제공된 자료의 정확한 양이나 기간은 보도되지 않았습니다. (참고로 인천공항 CCTV 운영관리 방침 페이지나 개인정보처리방침에 식별추적시스템을 위해 NIPA가 설치한 카메라가 따로 언급되거나, 해당 데이터가 사업 참여업체에 위탁된다는 정보는 없습니다.)

왜 만드는 건가요?

생체정보 위탁 사건의 배경이 된 사업의 일차적 목표는 출입국 심사 및 공항 보안 관리에 자동화 기술을 도입하여 운영 효율을 높인다는 것입니다. 한편 그에 못지 않게, 어쩌면 더 중요하게 강조되는 목표는 한국의 인공지능 산업 육성인데요. 정보통신산업진흥원(NIPA)에서 2020년 말 발간한 <AI식별추적시스템구축 사업 의의와 성과> 이슈리포트는 "은행거래, 쇼핑, 미아찾기, 불법 이민자 식별 등 다양한 분야로 사업 영역 확대"가 기대된다고 적고 있습니다. 또한 인공지능 개발에 대규모 데이터가 필요하지만 "국내 기업은 개인정보보호 등의 사유로 데이터 확보에 어려움을 호소"하고 있다며, 법무부가 가진 출입국 사진 등 "고품질 대용량의 보유 데이터를 효과적으로 취득"하게 하는 것을 사업배경으로 꼽고 있습니다.

이번에 이 사업 관련 보도에서, 그리고 법무부와 과기부의 보도 대응에서 많이 다룬 것은 이러한 데이터 지원이 개인정보보호법을 위반했는지 여부인데요. 여기서 그 이야기는 잠시 접어두고 NIPA 이슈리포트에 나오는 한 구절을 소개하고자 합니다. 17쪽을 보면 해당 사업의 기대효과로 다음과 같은 내용이 적혀 있습니다.

□ 우리나라 인공지능 기업이 세계 수준으로 기술을 조기 확보하여, 아직 초기 단계인 안면인식, 행동인식 시장에 선도 진입 가능
ᄋ 미국 시장은 Microsoft, 아마존이 경찰 대상 안면인식 기술 판매 중단을 선언, IBM은 아예 안면인식 기술 사업 중단을 선언. 이 시장을 두고 NEC, 클리어뷰AI, 아요닉스 등 이 분야 후발 기업이 쟁탈전을 벌이는 양상
ᄋ 미국, 유럽 등 안면인식 기술을 제한하는 입법조치가 취해지기 전까지 세계시장 진입을 위한 기회가 될 것으로 보임

미국에서 MS, 아마존, IBM 등이 안면인식 기술을 공권력에 판매하지 않기로 했고 후발 기업들이 그 시장에서 경쟁하고 있는데, 바로 그 시장(및 다른 나라의 동일 시장)에 우리나라 인공지능 기업을 진입시키는 것이 이 사업의 기대효과 중 하나라는 것이죠. 아울러 미국, 유럽에서 안면인식 규제가 생기기 전에 시장 진입할 기회라고 서술하고 있습니다. 이 '기회'라는 표현을 잠시 곱씹어봅니다. NIPA, 나아가 한국 정부가 이번 사안을 어떻게 바라보고 있는지 잘 드러내는 단어입니다.

어떻게 생긴 '기회'?
–시장 진입 '기회'의 배경: 안면인식기술의 윤리 논란


'기회'가 뭐 어떻단 말일까요? 그 얘기를 하기 전, 위 리포트에 언급된 "미국, 유럽 등 안면인식 기술을 제한하는 입법조치"나 그에 앞선 빅테크 기업의 "경찰 대상 안면인식 기술 판매 중단"이 어떤 맥락에서 나오게 됐는지, 그 배경을 돌아보면 좋겠습니다. NIPA 사업은 안면인식과 이상행동감지 모두를 목표로 하지만, 보고서에서도 언급하듯이 이상행동감지는 아직 성과가 더딘 편이어서 안면인식 기술 위주로 이야기해보겠습니다.

현재의 심층기계학습(딥러닝) 기반 안면인식 기술은 2010년대 들어 성능이 급속도로 향상되고 일상화되었습니다. (관심 있는 분들은 안면인식기술에 관해 조금 더 자세히 설명하는 기사, 다른 기사, <네이처>지 기사 속 일러스트, 논문 등을 참고하세요) 페이스북이 이용자 사진에 사람 자동 태그 기능을 도입한 것이 2011년, 애플이 페이스 ID 탑재 아이폰을 출시한 것이 2017년입니다. 안면인식 기술은 프라이버시 이슈와 밀접한 만큼, 학술연구, 시민운동, 법조계 등에서 안면인식 기술을 비판하고 규제 또는 전면금지주장하는 논의 또한 많이 진행되었습니다. 안면인식 규제 논의에서 자주 등장하는 쟁점은 다음과 같습니다. 하나씩 살펴봅시다.

  • 차별적인 알고리즘 성능
  • 비윤리적 데이터 수집
  • 생체인식 기술의 근본적 위험성

불완전한 기술: 차별적인 알고리즘 성능

우선 안면인식 알고리즘 학습에 사용되는 데이터 자체가 특정 집단(주로 백인 남성) 위주로 편향되어 있다는 문제가 있습니다. 기계학습 알고리즘은 학습 데이터를 많이 접할 수록 정확한 성능을 보이는 경향이 있는데, 뒤집어 말해 데이터가 부족한 대상에 대해서는 부정확할 가능성이 큰 것이죠. 여성, 성 소수자, 흑인이나 아시아인 등 유색인종일 수록 오류의 가능성이 큰 알고리즘을 출입국 심사나 경찰 치안 활동 등에 적용한다면? 곧바로 현실의 차별로 이어질 위험이 생깁니다.

블랙 라이브스 매터 시위. "Demilitarize the Police, Black Lives Matter", Johnny Silvercloud [CC BY-SA 2.0]
한국이 추진하는 출입국사진 기반 얼굴인식 AI는 어떨까요? 아직 시스템이 완성되지 않았고 법무부와 과기부가 민간 업체에 지원해준 데이터의 구성을 정확히 알기 힘들지만, KOSIS의 외국인 입국자 통계를 보면 2019년 기준 아시아에서 1500만명, 북아메리카에서 134만명, 유럽에서 112만명이 입국한 반면 남아메리카는 9만8천명, 아프리카는 6만2천명으로 큰 차이가 납니다.
2019년 지역별 외국인 입국자 수. 위에서부터 아시아주계, 북아메리카주계, 남아메리카주계, 유럽주계, 오세아니아주계, 아프리카주계, 기타. 남아메리카와 아프리카 출신 입국자가 유독 적은 것을 확인할 수 있습니다. KOSIS
참여 업체들이 이런 데이터 불균형에 어떻게 대응하는지 모르지만, 주어진 데이터를 전부 사용한다고 가정하면 아시아-북아메리카-유럽 위주의 편향이 생길 위험도 예상 가능합니다. 반대로 아프리카나 남아메리카 출신 입국자는 부당하게 더 자주 심사 관련 오류를 겪을 수도 있겠죠. 이런 일을 방지하기 위한 가이드라인이 존재하고 업체들이 그것을 따르고 있을지, 궁금해지는 대목입니다.

미심쩍은 출처: 비윤리적 데이터 수집

그러면 인종, 성별, 성적 지향 등과 무관하게 비슷한 수준의 정확도를 낼 수 있으면 아무 문제 없을까요? 그건 아닙니다. 안면인식 기술이 정확하게 작동하려면 방대한 양의 데이터를 학습 및 검증에 사용해야 합니다. 과거에는 지원자를 섭외해 얼굴 사진을 촬영하는 방법 외에 없었지만 소셜미디어의 확산과 함께 인터넷에 공개적으로 올라온 사진이 많아지면서, 안면인식용 데이터도 인터넷에서 수집한 얼굴 사진을 적극적으로 활용하기 시작했는데요. 이 과정에서 저작권 또는 프라이버시를 침해하거나, 당사자가 동의한 적 없는 용도로 자꾸만 데이터가 사용되는 등 착취적 행태가 문제가 되었습니다.

MegaFace 데이터셋 중 일부 이미지에서 얼굴을 흐리게 처리한 것. Adam Harvey / Exposing.ai [CC-BY-NC]
비공개로 제품을 개발하는 사기업만 데이터 수집 과정에 관한 논란을 겪는 것은 아닙니다. 버젓이 학술연구에 통용되는 공개 데이터셋도 수집 단계에서 비슷한 문제를 갖는 경우가 있습니다. 각종 생체인식 데이터셋의 제작과정과 활용처를 비판적으로 검토하는 Exposing.ai 프로젝트는 인터넷에서 수집되어 인공지능 연구에 사용되는 데이터셋을 여럿 소개하는데, 예를 들어:

  • Duke MTMC 데이터셋(듀크 대학교, 2016)은 교내 CCTV에 찍힌, 학생들이 수업 사이에 이동하는 영상을 담고 있습니다. 개인정보 활용에 대한 별도 동의 없이 촬영 사실을 고지하는 안내문을 촬영 구역 주변에 부착했으나, 학생들이 촬영 여부와 데이터 활용 범위를 알고 있었는지는 명확하지 않습니다.
  • MegaFace 데이터셋(워싱턴 대학교, 2016)은 플리커(Flickr)에서 크리에이티브 커먼즈 라이선스로 공개된 사진에서 추출한 얼굴 이미지 475만 건을 담고 있습니다. 원 사진의 69%는 상업적 이용을 금지했지만, 메가페이스 데이터셋은 수많은 기업에서 사용된 바 있습니다.

데이터셋 저자들이 저작권 논란 및 윤리적 비판을 받은 뒤 데이터셋을 철회하여, 새로 다운로드 받을 수 없게 하고 기존 사용자들도 데이터를 이용하지 않도록 촉구하는 경우도 있습니다. 그러나 이미 유통되어 어딘가의 하드디스크에 자리잡고 제품에 적용된 데이터셋이 완전히 없어지기는 쉽지 않습니다. 이번 사건의 법무부-과기부 대응이 '개인정보가 철저한 보안 속에 관리되고 있다'는 점을 강조한 것도 이 때문일 것입니다.

한편 이번 출입국 생체정보 위탁 사건은 업체가 직접 데이터를 수집한 것이 아니라 정부가 업체 육성을 위해 직접 데이터를 제공해주었다는 점에서 중국 정부의 안면인식 기술 관련 접근과 유사점이 있습니다. 중국은 개인정보 데이터 관련 규제의 미비와 프라이버시 개념을 희박하게 만드는 막강한 공권력을 배경으로 안면인식 시장을 선도하고 있죠.

끝없는 감시: 생체인식 기술의 근본적 위험성

다양성을 갖춘 데이터를 합법적으로 취득했더라도, 안면인식기술 관련 논의가 전부 해결되는 것은 아닙니다. 얼굴은 잘 변하지 않으며 바꾸기도 매우 어렵습니다. 개인정보보호위원회의 <생체정보 보호 가이드라인>이 지적하는 것처럼 얼굴 등의 생체정보는 개인정보 중에서도 가장 민감한 종류의 정보입니다. 변협정보인권 관련 시민단체들에서 이번 사건에 즉각 대응 성명을 발표한 데서도 확인할 수 있듯이 안면인식기술은 프라이버시와 감시의 문제를 정면으로 호출합니다.
신장위구르자치구. "Urumqi (Xinjiang Uyghur Autonomous Region)", Sasha India [CC BY 2.0]
안면인식을 이용한 감시에 관해 근래 가장 악명 높은 사례는 중국의 신장 위구르 자치구 감시일 것입니다. 중국 정부가 소수민족을 탄압하는 과정에서 유사과학적이고 인종차별적인 기술(예: 위구르, 티벳, 한국 중에서 민족 구별하기, 감정분석)을 사용했고, 신장 자치구에 감시 기술을 납품하는 중국 업체가 MIT에 연구비를 후원하는 등 미국 연구진이 연관된 논란 또한 있었습니다.

얼굴인식기술은 그 자체로 강력하기도 하지만, 다른 비과학적, 인종차별적, 우생학적 접근을 용이하게 한다는 점에서 또한 위험할 수 있습니다. 예를 들어 얼굴 사진을 바탕으로 성격, 범죄자 여부, 동성애자 여부 등을 예측하는 (사실상 골상학 더도 덜도 아닌) 논문이나 제품들이 안타깝게도 꾸준히 등장합니다.

중국처럼 노골적으로 소수민족 억압에 감시기술을 활용하지 않더라도 안면인식 기술은 프라이버시를 적극적으로 침해할 여지가 큽니다. 미국 경찰이 사용하는 것 같은 안면인식 기술을 한국 경찰이 사용한다면 어떨까요? (실제로 이번 NIPA 사업에 참여한 한 업체 대표가 경찰청이 추진하는 인공지능 CCTV 프로그램에 자문위원으로 위촉되기도 했습니다.) 서울시에 설치된 공공CCTV만 4만2천개입니다. 전국민의 위치 파악이 그만큼 쉬워지겠죠. 이는 예를 들어 실종자를 찾아내는 능력뿐만 아니라, 반정부 시위 참석자를 조회해 범칙금을 부과하는 능력 또한 강력해질 수 있음을 말합니다. 민간에서 이런 기술을 사용할 수 있다면 스토킹이나 가정폭력 가해자가 피해자를 추적하는 데 사용되지 않으리라 장담할 수도 없습니다. 이런 기술이 애초에 개발되어야 할지, 어떤 식으로 개발되어야 할지를 판단하는 데는 정부-민간 협력체의 의견만이 아니라, 사회적 합의가 더 필요하지 않을까요.

서구의 윤리적 고민 = 한국의 기회?

NIPA 이슈리포트에서 "세계 시장 진입을 위한 기회"라고 표현한 것의 실체는 이처럼 안면인식기술의 불완전성, 비윤리적 제작과정, 반인권적 사용 등의 문제가 시민사회, 학술계, 정치권 등에서 공론화되어 빅테크를 중심으로 자정작용(또는 보는 관점에 따라 PR대응)이 일어난 상황입니다. 그리고 이런 논의를 배경으로, 미국과 유럽 쪽에서 안면인식 규제를 법제화하려 움직이고 있습니다. 이 다음에 올 문장으로 자연스러운 것은 "한국 정부 또한 이같은 논란에 주목하여, 윤리적이고 안전한 기술 개발을 위해 만전을 기하고 있다" 정도겠지요. 그러나 NIPA 리포트에 드러난 관점은 "사회적 논란이 빅테크를 주춤하게 만든 지금, 서구 정치권에서 규제를 제도화하여 윤리라는 걸림돌이 우리에게도 적용되기 전 잽싸게 치고 나가 기술적 우위를 점하고자 한다"에 가까워 보입니다.

이번의 출입국 생체정보 위탁 사건은 적법한 개인정보 이용이라는 정부의 반론이 있고, 아직 법적으로 결론나지 않은 사안입니다. 그러나 법적 타당성이 어떻든 데이터 자기결정권의 개념과 정면으로 배치되어 보이는 사업을 통해 공권력 기능을 강화하려는 현재의 접근은, 안면인식기술이 유발한 윤리적 쟁점을 진지하게 생각하지 않기 때문에 가능해 보입니다. 아니, 지금의 상황을 "기회"라고 인식하고 있다는 점에서 오히려 윤리를 적극적으로 무시하려는 것 아닐까 싶기도 합니다.

정부는 2020년 12월 (NIPA 이슈리포트와 같은 달입니다) "사람이 중심이 되는 <인공지능 윤리기준>"이라는 문서를 발표한 바 있습니다. 구속력을 갖는 것은 아니지만, 정부 작성 초안을 바탕으로 각계 의견을 반영한 결과물입니다. <인공지능 윤리기준>에서 발췌한 다음 대목들을 봅시다. 이번 실증사업이 아래 기준들에 부합한다고 볼 수 있을까요? 부합하지 않는다면, 이 윤리기준의 존재 의의는 무엇일까요?

  • 인공지능 기술은 인류의 삶에 필요한 도구라는 목적과 의도에 부합되게 개발 및 활용되어야 하며 그 과정도 윤리적이어야 한다.
  • 인공지능의 개발과 활용은 인간의 권리와 자유를 침해해서는 안 된다.
  • 인공지능을 개발하고 활용하는 전 과정에서 개인의 프라이버시를 보호해야 한다.
  • 인공지능 전 생애주기에 걸쳐 개인 정보의 오용을 최소화하도록 노력해야 한다.
  • 인공지능 전 주기에 걸쳐 다양한 주체들의 공정한 참여 기회를 보장하여야 한다.
  • 윤리적 인공지능의 개발 및 활용에 국제사회가 협력하도록 노력해야 한다.
  • 개인정보 등 각각의 데이터를 그 목적에 부합하도록 활용하고, 목적 외 용도로 활용하지 않아야 한다.
  • 사회적 신뢰 형성을 위해 타 원칙과의 상충관계를 고려하여 인공지능 활용 상황에 적합한 수준의 투명성과 설명 가능성을 높이려는 노력을 기울여야 한다.

안면인식기술을 둘러싸고 서구에서 진행된 윤리적 논란이 한국 인공지능 산업에게 '기회'라면 그 기회는 '기존 쟁점을 참고해 윤리적으로 성숙한 인공지능 개발을 사회적으로 논의할 기회'여야지, '비슷한 논란이 한국에서도 발생하기 전 재빨리 윤리적으로 애매한 기술 개발을 진행시킬 기회'여서는 안 될 것입니다.

이번 사건의 본질적인 문제는 정부가 개인정보보호법을 위반했는지(물론 그 문제도 중요하지만)보다도, 나의 사진을 이용해 정부가 민간 기업에게 감시 기술을 개발시키고 있다는 사실 그 자체입니다. 우리는 어떤 기술을 만들 것인지, 그것을 어떻게 만들어 갈지에 관해 함께, 더 다양한 목소리로 의논할 수 있어야 하지 않을까요? 그 과정에 투입되는 자원이 나의 개인정보라면 더더욱 말입니다. 이번 사업이 어떤 점에서 그러지 못하였고, 우리가 어떤 질문을 정부에 던져야 할지 더 자세히 이야기하는 김수지 에디터의 글을 소개하며 마무리합니다.