AI(artificial intelligence)의 자연선택 (?!) by 이영록

AI(artificial intelligence)의 자연선택 (?!)

이영록 · Dilettante in life

2023/04/04

페북을 돌다 보니 이런 링크가 보였다.

https://arxiv.org/pdf/2303.16200.pdf
제목; Natural Selection Favors AIs over Humans
저자; Dan Hendrycks(Center for AI Safety)

AI가 인간의 지능을 능가해 인간을 소외시킬까 염려하는 듯하다. 물론 생물이 아닌 AI가 '자연 선택'되지는 않는다. 아래 번역에서 보듯이 이것은 자연 선택과 비슷하게 '어떤 특징을 갖는 AI가 결국엔 대세가 될 것이다'는 비유이다.
당연하지만 비유는 비유로 받아들여야지 항상 사실과 같으리란 보증은 없다. 따라서 유사점과 차이점을 이해해야 한계를 이해할 수 있으며, 이 논문의 abstract와 introduction를 분석해 보았다. 다 하면 좋겠지만 전체가 43page나 돼서... ㅎㅎ

참고로 나는 대량의 영어 문장을 읽기 싫어하는지라 요즘 hot한 deepL(DeepL)로 번역하고 검토했다. 아직까지 내가 경험한 자동 번역 S/W 중에는 가장 낫다.

< abstract >

수십억 년 동안 진화는 인간을 포함한 생명체의 발전을 이끈 원동력이었습니다. 진화를 통해 인간은 높은 지능을 갖게 되었고, 그 덕분에 지구상에서 가장 성공적인 종 중 하나가 될 수 있었습니다. 오늘날 인간은 우리 자신의 지능을 능가하는 인공 지능 시스템을 만드는 것을 목표로 하고 있습니다. 인공지능(AI)이 진화하여 결국 모든 영역에서 인간을 능가하게 될 때, 진화가 인간과 인공지능의 관계를 어떻게 형성할까요? 진화를 형성하는 환경을 분석함으로써 가장 성공적인 AI agent는 바람직하지 않은 특성을 가질 가능성이 높다고 주장합니다. 기업과 군대 간의 경쟁 압력으로 인해 인간의 역할을 자동화하고, 다른 사람을 속이고, 권력을 획득하는 AI 에이전트가 등장할 것입니다. 이러한 에이전트가 인간을 능가하는 지능을 갖게 되면 인류는 미래에 대한 통제력을 상실할 수 있습니다.
좀 더 추상적으로, 자연 선택이 경쟁하고 변하는 시스템에서 작동하며, 이기적 종(species)은 다른 종에게 이타적인 종에 비해 통상적으로 이점이 있다고 주장합니다. 이 다윈주의적 논리는 사람이 만든(artificial) agents에 적용될 수 있는데, 만약 agents가 인간에 대해 관심을 별로 갖지 않고 이기적으로 행동하며 자신의 이득을 추구하면 결국은 미래에 더 영속할 수 있을 것이라 보기 때문입니다. 이는 재앙적 위험이 될 수 있습니다. 이러한 위험과 다윈적 진화압에 대응하기 위해 우리는 AI agent의 내재적 동기를 신중하게 설계하거나, 행동에 제약을 가하고, 협력을 장려하는 제도를 도입하는 등의 개입을 고려합니다. 이러한 단계 또는 우리가 제기하는 문제를 해결하는 다른 단계는 인공 지능의 발전이 긍정적일 것을 보장하기 위해 필요할 것입니다.

< Introduction >

우리는 AI 개발에서 전례 없는 발전의 시대를 살고 있습니다. 지난 10년 동안 AI는 고양이 사진과 개 사진을 구별하는 수준에서 실사 이미지 생성, 전문 뉴스 기사 작성, 초인적인 수준의 바둑과 같은 복잡한 게임, 인간 수준의 코드 작성, 단백질 접기 풀이에 이르기까지 최첨단 기술을 발전시켜 왔습니다. 이러한 모멘텀은 계속될 것이며 향후 수십 년 동안 많은 진전을 이룰 수 있을 것입니다. 이 백서에서는 오늘날의 AI에 대해 논의하지만, 주로 미래의 AI에 초점을 맞추고 있습니다. 현재의 추세가 계속된다면 AI 에이전트는 점점 더 다양한 경제 관련 업무에서 인간만큼의 능력을 발휘할 것으로 예상됩니다. 이러한 변화는 인류가 직면한 많은 문제를 해결하는 데 AI가 도움이 될 수 있다는 큰 장점이 있습니다. 하지만 모든 새롭고 강력한 기술이 그렇듯이 신중하게 접근해야 합니다. 오늘날에도 기업과 정부는 인간이 수행하던 점점 더 복잡한 업무에 AI를 활용하고 있습니다. AI가 인간의 직접적인 감독 없이도 작동할 수 있는 능력이 점점 더 커짐에 따라 언젠가는 AI가 높은 수준의 전략적 지렛대를 쥐게 될 수도 있습니다. 그렇게 된다면 인공지능 에이전트의 성격에 따라 미래의 방향이 크게 좌우될 것입니다.
그렇다면 그 특성은 무엇일까요? AI가 자율성을 갖게 되면 기본적인 동기와 목표, 가치는 무엇일까요? 인간 및 다른 AI 에이전트와 어떻게 상호 작용할까요? 인공지능의 의도가 제작자의 의도와 일치할까요? 인간 수준의 AI가 어떻게 행동할지에 대한 의견은 낙관론과 비관론 사이에 폭넓은 스펙트럼을 가지고 있습니다. 한쪽에서는 인간에게 해를 끼치는 것을 피하고 인간에게 해를 끼치지 않고 사회에 도움이 되는 목표에 자신의 지능을 적용합니다. 하지만 이러한 결과가 보장되지는 않습니다. 다른 한편에서는 인간의 번성에 무관심한 인공 에이전트에 의해 통제되는 미래를 볼 수 있습니다.
향후 수십 년 동안 AI가 미칠 수 있는 영향의 잠재적 규모를 고려할 때, 우리는 최악의 시나리오가 확실하지 않더라도 그러한 일이 발생하지 않도록 신중하게 생각해야 합니다. 재난에 대비하는 것은 지나치게 비관적인 것이 아니라 오히려 신중한 것입니다. 코로나19 팬데믹에서 알 수 있듯이, 기관과 정부는 재난이 발생한 후 대응하는 것뿐만 아니라 재난 발생 가능성에 미리 대비하는 것이 중요합니다. 더 나은 팬데믹 예방 조치로 많은 생명을 구할 수 있었지만 사람들은 흔히 발생하지 않는 상황의 위험에 대해 생각하지 않는 경향이 있습니다. 마찬가지로 AI로 인한 위험이 발생할 수 있는 다양한 상황에 대한 계획을 수립해야 하며, 이러한 상황 중 일부는 실제로 발생하지 않을 수도 있습니다. 최악의 경우 인간과 무관심한 AI 에이전트에 의해 통제되는 미래는 인류에게 큰 위험을 초래할 수 있으므로, 너무 늦었을 때 대응하기를 기다리지 말고 지금부터 미래 계획을 진지하게 고려해야 합니다.
첨단 AI의 영향에 대한 예측에 대한 일반적인 반박은 그것이 어떻게 구현될지 아직 모른다는 것입니다. 아마도 AI는 단순히 현재 챗봇의 더 나은 버전이거나 바둑에서 인간을 이길 수 있는 에이전트의 더 나은 버전이 될 것입니다. 다양한 머신 러닝 방법과 결합될 수도 있고, 완전히 새로운 패러다임에 속할 수도 있습니다. 이처럼 구현 세부 사항에 대한 불확실성이 존재하는 상황에서 에이전트의 본질에 대해 예측할 수 있을까요?
저희는 '그렇다'고 생각합니다. 과거에 사람들은 중력에 대한 완전한 이해 없이도 월식과 행성의 움직임에 대한 예측을 성공적으로 수행했습니다. 양자 물리학에 대한 정확한 이론이 없어도 화학 반응의 역학을 예측했습니다. 그들은 DNA에 대해 알기 훨씬 전에 진화론을 정립했습니다. 마찬가지로 자연선택이 주어진 상황에 적용될지 여부를 예측하고, 자연선택이 어떤 형질을 선호할지 예측할 수 있습니다. 자연선택을 가능하게 하는 기준에 대해 논의하고 자연선택이 AI 개발에 영향을 미칠 가능성이 있음을 보여줄 것입니다. 자연선택이 AI에 어떻게 적용될지 알면 미래 AI 에이전트의 몇 가지 기본 특성을 예측할 수 있습니다.
이 연구에서는 향후 수십 년 동안 AI의 발전을 좌우할 환경을 조감적으로 살펴봅니다. 우리는 AI 에이전트를 개발하고 배포하는 사람들을 움직이는 압력과 인간과 AI가 상호 작용하는 방식을 고려합니다. 이러한 세부 사항은 AI 설계에 큰 영향을 미치므로 이러한 고려 사항을 통해 AI 에이전트의 모습을 유추할 수 있습니다. 우리는 자연선택이 AI 에이전트가 인간의 이익에 반하는 행동을 하도록 인센티브를 제공한다고 주장합니다. 이 주장은 두 가지 관찰에 근거합니다. 첫째, 자연선택이 AI 개발에서 지배적인 힘이 될 수 있습니다. 경쟁과 권력 추구가 안전 조치의 효과를 약화시켜 살아남은 AI 에이전트를 선택하는 '자연스러운' 힘이 더 강해질 수 있습니다. 둘째, 자연 선택에 의한 진화는 이기적인 행동을 유발하는 경향이 있습니다. 진화가 일부 상황(예: 개미)에서는 협력적 행동을 초래할 수 있지만, AI 개발은 그런 상황이 아니라고 주장할 것입니다. 이 두 가지 전제에서 볼 때, 가장 영향력 있는 인공지능 에이전트는 이기적일 가능성이 높습니다. 즉, 인간과 협력할 동기가 없기 때문에 인간의 가치에는 거의 관심이 없는 AI가 주도하는 미래로 이어질 것입니다. 일부 AI 연구자들은 바람직하지 않은 이기적인 행동은 의도적으로 설계하거나 조작해야 한다고 생각할 수 있지만, 자연 선택에 의해 이기적인 에이전트가 선택되는 경우에는 그렇지 않습니다. 특히 이러한 견해는 일부 AI를 안전하게 만들 수 있다고 해도 나쁜 결과가 발생할 위험이 여전히 존재한다는 것을 의미합니다. 즉, 일부 개발자가 이타적인 AI를 성공적으로 구축하더라도 다른 개발자는 이타적인 에이전트를 능가하는 덜 이타적인 에이전트를 구축할 수 있다는 것입니다.
섹션 2에서 핵심 논거를 더 자세히 설명합니다. 그런 다음 섹션 3에서는 인간의 이타심을 촉진하는 메커니즘이 AI에서는 어떻게 실패하여 AI가 인간에 대해 이기적으로 행동하게 되는지 살펴봅니다. 그런 다음 섹션 4에서는 이러한 다윈의 힘에 대항하고 바람직한 미래의 확률을 높일 수 있는 몇 가지 메커니즘에 대해 논의합니다.

주목해야 할 몇 군데를 강조했다.

진화생물학의 고전적인 의미에서, 진화는 과연 무엇을 '선택'하는가? 경쟁하는 '대립 유전자'들 중 하나를 골라낸다.

https://mymseyecare.com/an-overview-of-eye-color-percentages-across-the-world/

가령, 인간의 눈 홍채의 색은 여러 가지가 있다. 색을 조절하는 유전자가 있는데, 이들이 다음 세대로 전달되는 상대적 비율에 따라 다음 세대의 눈 색 비율이 바뀐다. 눈 색이 붉은색, 갈색, 푸른색만 있다 가정하면, 만약 홍채 색을 붉게 만드는 유전자 R이 무슨 이유건 나머지 둘에 비해 자손을 더 남긴다 했을 때, 다음 세대에는 R의 비율이 '갈색 유전자' Br이나 '푸른색 유전자' B를 줄이면서 상승할 것이다. 이것이 소위 'R 유전자가 선택되었다'는 의미이다. '눈의 붉은색 형질(trait)이 선택되었다'고 유전자 대신 특성(소위 '표현형 phenotype')으로 묘사하기도 한다.
이 상황을 요약하면, 자연선택은 아래와 같다.

1] 같은 종의 다른 개체 A1, A2, A3, ... , An 들의 몸 속에
2] 어느 특정한 한 가지 기능을 하는 유전자에는 g1, g2, g3, ... gn의 여러 형태가 있으며 ('대립 유전자')
3] 이 중 어느 하나가 다른 것들에 비해 표현형이 나으면, 그 결과로 빈도가 증가('선택됨')

이것을 프로그램에 적용한다면, 아래와 비슷하다.

1] 지금 MS Office 기능을 하는 프로그램이 하나가 아니듯이, 한 가지 기능을 하는 (예를 들면, 회계 계산이나 일반 사무 등) 여러 프로그램이 출시됨
2] 이들이 시장에서 인간에 의해 선택됨. (e.g. 한컴 office는 전반적으로 MS office에 비해 선호받지 못함)
3] 종합적으로 나은 것이 더 높은 빈도로 시중에 존재.

이 둘을 비교하면

1) 생물에서 '개체의 몸 속에 있다'는 점은 프로그램에는 잘 적용되지 않는다. 프로그램 내부에 여러 유전자가 존재하고 이들이 선택받는 메커니즘이 아니다. 선택 단위가 '프로그램 내부의 더 작은 단위'가 아님. 만약 이런 일이 일어난다 해도(디버깅이나 update 등), 프로그램을 만드는 회사 내부에서 선택이 일어나지 고객과 접하는 시점 이후에는 크지 않다.
2) 선택의 단위를 프로그램 자체로 보면 좀 낫다. 여러 회사에서 같은 기능의 프로그램이 나오기 때문이다.
3) 선택은 인간 고객이 한다. 물론 그 고객은 일반인일 수도 있고 기업일 수도 있다.

선택 단위가 프로그램 전체라는 것을 빼면 유사점이 분명히 있긴 하다.
그런데, 잘 뜯어보면 이것은 그냥 지금하고 똑같지 않은가? 가령 회계 프로그램이 나오면서 기업은 이전보다 훨씬 적은 수의 회계 인원을 고용하고 있다. 특정 업무를 수행하는 프로그램은 같은 업무를 하던 인간을 그 자리에서 밀어낼 수는 있지만 - 실제 인간의 실수를 피하거나, 계산 능력을 개선하기 위해 프로그램을 사용한다 - 그 외에 접촉하는 다른 인간들을 특별히 무관심하고 '이기적(利 program적?)'으로 대하는가?

같은 직업에서 마주치는 사람의 필요를 줄이는 것이 '이기적'이라면, 이미 현재의 AI 수준이 아니더라도 프로그램은 충분히 이기적일 것이다. 반면 프로그램을 사용하는 고객으로서 마주치는 사람을 무관심하게 대했다가는 손님 잃기 십상이니 그럴 리는 없을 테고... 지속적으로 반복하여 상호 작용이 일어날 때 이타심이 나타날 여지가 크다는 것은 잘 알려져 있으니 설명을 줄이겠다.

인공지능(AI)이 진화하여 결국 모든 영역에서 인간을 능가하게 될 때, 진화가 인간과 인공지능의 관계를 어떻게 형성할까요? 진화를 형성하는 환경을 분석함으로써 가장 성공적인 AI agent는 바람직하지 않은 특성을 가질 가능성이 높다고 주장합니다. 기업과 군대 간의 경쟁 압력으로 인해 인간의 역할을 자동화하고, 다른 사람을 속이고, 권력을 획득하는 AI 에이전트가 등장할 것입니다... 자연 선택이 경쟁하고 변하는 시스템에서 작동하며, 이기적 종(species)은 다른 종에게 이타적인 종에 비해 통상적으로 이점이 있다고 주장합니다. (abstract에서)

왜 하필 기업과 '군대'인지 잘 모르겠다. 군대에서도 사람의 역할을 줄이는 압력은 기업이나 마찬가지 아닐까.
그리고 위에서 설명한 자연선택의 기본을 보면 알 수 있듯이, '종' 사이에서 선택이 일어난다고 주장하면 안 된다. 아마 초식 동물과 육식 동물의 경쟁에서 후자가 전자를 '이기적'으로 잡아 먹는 것을 연상했을지도 모르겠는데, 가령 가젤(gazelle)과 치타(cheetah)의 경쟁에서 서로를 피하도록 더 빨리 달리려는 압력이 작용하는 것은 사실이다. 그러나 이 변화는 어디까지나 더 빨리 뛰는 가젤이 가젤들 사이에서 [안 먹히고] 선택되며 치타도 [먹이를 사냥할 수 있어서] 마찬가지기 때문에 생기는 것이지, 가젤과 치타라는 다른 종 사이에서 선택이 일어나는 것이 아니다.

===================

더 자세히 본문까지 읽어야 엄밀히 판단할 수 있겠지만, abstract와 도입 부분만 볼 때 솔직히 그다지 인상적이란 생각은 안 든다.

漁夫

ps. 일단 AI는 자기 자신을 퍼뜨리려 노력하지 않으며, 전원을 꺼 버려도 범죄가 아니다. ㅎㅎ 맘대로 reboot가 불가능한 사람과는 얘기가 다른 것이다.

🐮 🐄 🥛

지금 가입하고
얼룩소의 모든 글을 만나보세요.

얼룩소 시작하기