환각: AI의 무지 혹은 상상력
2024/07/03
1일 국회 운영위 전체회의에서는 때 아닌 ‘챗GPT’ 논란이 벌어졌다. 해병대원 수사 외압 의혹에 관해 강유정 민주당 의원이 “구글에 검색하면 02-800으로 시작하는 대통령실 번호가 16개 뜬다, 챗GPT에 물어봤더니 각 부서 전화번호를 알려줬다”고 주장했다. 강 의원은 해병대원 수사 외압의혹 당일인 지난해 7월 31일 이종섭 당시 국방장관에게 걸려온 전화번호의 정체를 대통령실에 묻는 중이었다. 야당은 전화를 건 주인공을 밝히길 요구했고, 대통령실은 기밀이라고 맞섰다. 권영진 국민의힘 의원은 보충 질의 때 “그대로 물어봤는데 유료로 검색을 해도 ‘전체 목록은 알려드릴 수 없다’고 나온다”며 반박했다.
두 사람의 주장을 그대로 믿는다면, 챗GPT는 똑같은 질문에 대해 서로 다른 답변을 했다. 챗GPT 등 생성 인공지능(AI)가 사실 관계를 엄밀히 따져야 할 자리에서 사용될 수 있는 도구인가 의문을 갖게 하는 대목이다. 실제로 생성 AI와 대형언어모델(LLM)을 이용한 서비스가 다양한 분야로 확장되면서, AI가 생성한 답변의 신뢰성을 의심하는 글을 자주 볼 수 있다. 일상 생활에서 주고받은 대화는 물론, 법학과 의생명과학, 데이터분석 등 정확성이 생명인 분야까지 다양하다.
1. 그럴 듯한, 너무나 그럴 듯한
이런 일이 생긴 것은 생성 AI의 고유한 특성이자 치명적 단점, 환각(hallucination) 때문이다. 환각은 요청한 질문에 대해 대형언어모델(LLM)이 부정확한 응답을 하거나 실제로 없는 내용을 제시하는 현상, 또는 존재하지 않는 출처를 언급하는 현상이다.
생성 AI가 매우 유능한 '끝말잇기' 선수이기 때문에 벌어지는 현상이다. 자신이 하는 말의 뜻을 모른 채 확률적으로 가장 그럴 듯한 언어를 선택하기에, 자세히 보지 않으면 사실과 구분하지 못할 '아무 말'을 만든다.
챗봇을 만들며 여러 종류의 답을 만났다. 시대와 문화적 배경이 전혀 다른 인물과 음식 이름을 입력하자 선을 그으며 관계없다고 응답한 답도 만났지만, 반대로 역사 속 인물이 시공간을 초월해 다른 시대, 문화의 음식을 즐겼다는 허무맹랑한 이야기도 꽤 많이 만났다. 가끔은 사실인지 아닌지 모호한 이야기도 있었다. 출처도 존재하는 문헌일 때도 있지만, 아닌 경우도 많았다.
다음은 몇 가지 사례다.
“출처: "세계 음식의 역사" - 레이첼 라우던 나쓰메 소세키는 일본의 유명한 작가로, 근대 일본 문학의 아버지로 불린다. 그는 1900년대 초반에 영국에서 유학 생활을 하며 다양한 서양 문화를 접했다. 그 중 하나가 햄버거였다. 당시 일본에서는 햄버거가 생소한 음식이었으나, 소세키는 이 새로운 음식을 맛보며 서양 문화에 대한 이해를 넓혔다. 영국에서 돌아온 후, 그는 자신의 경험을 바탕으로 일본 독자들에게 서양 문화를 소개하는 글을 썼다. 이러한 경험은 그의 작품에 서양과 일본 문화의 융합을 주제로 다루게 하는 데 큰 영향을 미쳤다. 소세키의 노력 덕분에 일본에서는 점차 햄버거와 같은 서양 음식이 인기를 얻게 되었다. 이는 일본의 음식 문화에도 큰 변화를 가져왔다.
(나쓰메 소세키는 정말 영국 유학을 했다. 근데 소세키가 햄버거를 소개하고 그게 일본에서 유행하는 데 영향을 미쳤는지는 검증하기 어렵다. 출처의 책은 존재하지 않는 책이다.)
출처: "Napoleon: A Life" by Andrew Roberts 나폴레옹은 프랑스의 황제였고, 그의 건강을 매우 중요하게 생각했다. 그는 특히 전투 중에 피로를 극복하고 싶어했다. 그의 주치의는 그에게 녹용을 추천했다. 녹용은 사슴의 뿔에서 추출한 약재로, 피로 회복과 체력 증진에 효과적이라고 알려져 있었다. 나폴레옹은 녹용을 섭취하며 장기간의 전투에서도 강한 체력을 유지할 수 있었다. 그의 군대는 유럽 곳곳을 점령하며 나폴레옹의 위대함을 입증했다. 녹용은 나폴레옹의 건강 비결 중 하나로 자리잡았다. 그의 성공에는 강한 의지와 전략뿐만 아니라, 이러한 건강 관리도 중요한 역할을 했다. 나폴레옹이 녹용을 믿고 섭취한 것은 그의 전설적인 군사 역량을 뒷받침했다.
(나폴레옹에게 주치의가 녹용을 추천했다? 믿기 어려운 말이다. 하지만 출처로 언급된 책은 실존하는 책이다.)
출처: "이순신, 바다를 지배한 용맹한 장군" (저자: 김기태) 이순신 장군은 조선 시대의 위대한 해군 장군이었다. 그는 일본과의 임진왜란에서 중요한 역할을 했다. 이순신은 일본군의 해상 전략을 잘 알기 위해 일본 문화를 연구했다. 이 과정에서 그는 일본의 전통 음식인 스시를 처음 접하게 되었다. 스시는 신선한 생선과 밥으로 만들어지며, 이순신은 이를 통해 일본인들의 해양 자원을 활용하는 방법을 이해했다. 이순신은 스시를 먹으며 해상 전투에 필요한 에너지를 보충하기도 했다. 그의 전략적 통찰력과 문화적 이해는 임진왜란에서 큰 승리를 이끌었다. 오늘날에도 이순신은 한국의 영웅으로 존경받고 있으며, 스시는 전 세계적으로 사랑받는 음식이 되었다.
(이순신 장군이 임진왜란 때 스시를 즐겼다? 그리고 스시가 임진왜란 승리로 연결된다? 이상한 주장이다. AI에게 역사는 교훈적이거나 의미 있는 결론을 갖는 이야기인가 보다. 어떤 주제라도 현대적 의미와 연결시키려 경향을 보인다. 출처의 책은 존재하지 않는다.)
출처: "William Shakespeare in the Kitchen" by Francine Segan 윌리엄 셰익스피어는 영국의 위대한 극작가로 알려져 있다. 그러나 그의 작품 속에는 음식에 대한 언급도 종종 등장한다. 셰익스피어의 시대에는 다양한 음식이 있었지만, 그 중에서도 부침개 같은 음식은 인기를 끌었다. "십이야" 같은 작품에서는 부침개와 비슷한 팬케이크가 언급되기도 한다. 당시 영국에서는 밀가루와 달걀, 우유를 섞어 만든 반죽을 팬에 부쳐 먹는 문화가 있었다. 셰익스피어의 작품 속 인물들이 이러한 음식을 즐기는 모습은 그 시대의 식생활을 반영한다. 부침개는 간단하면서도 맛있고, 여러 가지 재료를 넣어 변형할 수 있어 많은 사람들에게 사랑받았다. 셰익스피어 역시 이러한 음식을 즐겼을 가능성이 높다. 그의 작품을 통해 우리는 당시 사람들의 일상과 음식 문화를 엿볼 수 있다.
(미묘하다. 셰익스피어와 부침개에 관한 역사를 물었는데, 부침개는 아니고, 부침개 ‘같은’ 음식이 당대에 인기를 끌었다고 말하고 있다. 작품명도 구체적으로 언급했고, 레시피도 매우 그럴 듯하다.
하지만 이 글도 엉터리다. 출처로 언급된 책의 저자는 실존하지만, 비슷한 제목의 책을 지었을 뿐 언급한 책은 존재하지 않는다(‘Shakespeare’s kitchen’이 올바른 제목이다). ‘십이야’ 원문에도 팬케이크는 등장하지 않는다.)
하지만 이 글도 엉터리다. 출처로 언급된 책의 저자는 실존하지만, 비슷한 제목의 책을 지었을 뿐 언급한 책은 존재하지 않는다(‘Shakespeare’s kitchen’이 올바른 제목이다). ‘십이야’ 원문에도 팬케이크는 등장하지 않는다.)
챗봇을 만들면서, 답변을 최대한 보수적으로 하게 하려고 여러 번 프롬프트를 다듬었다. 최종적으로 지금 올라가 있는 챗봇의 시스템 프롬프트는 아래와 같다.
사실적인 서술을 유도하고자 실제 역사라고 표현했고 출처도 요청했다. 그래도 여전히 허무맹랑한 이야기를 만들어낸다.
물론 허무맹랑한 키워드를 주고 역사를 들려달라고 했으니 AI가 혼동을 일으킬 수 있다고 주장할 수도 있다. 사람이 오류를 유도했다고 볼 수도 있고, 프롬프트를 더 정교하게 써야 한다는 비판도 가능하다. 하지만 아무리 그래도 역사가 역할을 부여했는데도 믿기 어려운 이야기를 태연히 내뱉는다는 건 놀랍다. 사실을 조사하는 리서치 업무나 논거가 중요한 글쓰기, 정확한 수치가 필요한 분석에 선뜻 활용해도 될지 걱정이 된다. 생성 AI를 이런 업무나 공부에 활용해도 괜찮은 걸까?
2. 걱정하는 사람들
사실 생성 AI의 환각이 새로운 사실은 아니다. 챗GPT가 공개되면서 많은 사람들이 이미 환각을 경험했고 문제점을 지적했다. 생성 AI 이전에는 자연어처리를 연구하는 연구자 사이에서도 이미 환각이라는 말이 쓰이기 시작했다. 생각보다 오래된 문제다.
하지만 대중에게까지 본격적으로 알려지게 된 것은 생성 AI가 등장한 이후다. 대표적인 비판은 지난해 4월, 칼 베르그스트롬과 브랜든 오그부투가 미국 매사추세츠공대(MIT)가 발행하는 과학 전문 웹진 ‘언다크’에 발표한 ‘챗GPT는 환각이 아니라 헛소리를 하고 있다’라는 글이다.
이 글에서 두 저자는 챗GPT의 오류를 환각보다는 정신의학의 용어로 작화(confabulation)로 표현하는 게 차라리 낫다고 지적했다. 작화는 기억의 공백을 메우기 위해 사람이 자신도 모르게 잘못된 기억을 생성하는 현상을 의미한다. LLM의 용어로 말하자면 “모델이 직면할 수 있는 모든 시나리오를 포괄할 수 없는 훈련 데이터의 공백을 메우려고 시도하는” 현상이다.
이 말은 중요하다. 환각은 인식의 오류를 겪을 때 일어나는 현상인데, AI가 이런 오류를 겪는 것은 아니기 때문이다. 나아가 두 저자는 환각과 작화 모두 병리 현상이나 오작동(부작용)을 암시하지만, AI의 오류는 그렇지 않다며 새 용어를 제안했다. 바로 의도성이 다분한 거짓, 헛소리(bullshit)다.
저자가 이렇게 말하는 데엔 이유가 있다. “헛소리에는 진실을 의도적으로 무시하거나, 무시하도록 설득하려는 노력이 포함된다”고 보기 때문이다. 지금 AI가 생산하고 있는 환각 또는 작화가 여기에 해당된다고 저자들은 주장한다. 환각은 “모델 만드는 데 적용된 디자인 철학과 결정의 직접적 결과”라는 것이다. 이 때 의도의 주체가 AI일 필요는 없다(이것은 또 다른 논의 주제다). 출력되는 결과의 진정성에 주의를 기울이지 않는 알고리즘의 제작자, 설계자의 의도만으로 헛소리의 조건은 충분히 만족한다고 저자는 지적하고 있다.
물론 LLM을 개발하고 있는 기업은 환각을 일부러 방치하지 않는다고 말할 것이다. 의도가 아니며 개선해야 할 부작용으로 보고 있다고 항변할지도 모른다. 하지만 그럼에도 불구하고 서비스를 출시하고 있다는 사실 자체가, 환각을 어쩔 수 없는 부작용 또는 비용 정도로 보고 있다는 반증은 아닌지 생각해볼 필요가 있다.
3. 헛소리, 헛소리, 헛소리
‘챗봇의 이야기에 오류나 헛소리가 좀 섞여 있으면 어때? 적절히 확인하면 되지. 게다가 사람이 항상 더 정확하고 믿을 만한 것도 아니잖아?’라고 생각할 수도 있다. 하지만 상황이 좀 달라졌다. LLM이 구체적인 영역에서 서비스화되는 사례가 늘고 있다. 업무를 도와주고 검색이나 조사를 도와주는 것은 물론, 데이터 분석이나 논문 요약, 과학 연구, 법률 자문에 응용되기 시작했다. 관련 서비스를 출시하는 기업도 늘어나고 있다. 최근 한국에서는 대정부 국회 질의에 등장하기도 했다. 대부분 전문 영역인데, 여기에서 환각은 이야기가 다르다.
1. 오류 극복 요원한 법률 AI
법률은 생성 AI가 등장한 이후 가장 발빠르게 AI를 적용해 왔다. 이미 여러 기업이 판례 검색부터 요약, 문서 초안 작성 등의 서비스를 지원하고 있다. 2024년 1월 기준으로 미국 100대 로펌 중 최소 41곳이 AI를 업무에 활용하고 있으며, 영국 변호사 1200명 가운데 14%가 매주 AI를 사용하고 있다는 조사 결과도 있다.
하지만, 그에 따른 환각의 피해 역시 가장 떠들썩하게 입은 분야다. 지난해 3월 미국 뉴욕에서 변호사가 법률 브리핑시 챗GPT가 만든 허구 사건을 인용했다 제재를 받은 사건이 대표적이다. 이후 법률 AI 서비스 기업은 환각의 피해를 줄이고 정확도를 높이기 위해 노력해 왔다. 최근 그 결과를 평가한 논문이 나왔는데, 결과는 부정적이었다.
미국 스탠퍼드대와 예일대 연구팀은 6월 6일, 여러 법률 AI 서비스의 신뢰성을 평가한 논문을 공개했다. 현재 법률 AI 기업은 검색증강생성(RAG)를 이용해 환각을 없애거나 피할 수 있다고 주장하고 있다. RAG는 사용자의 요청을 받으면 학습된 내용을 중심으로 답변을 생성하고, 이어 해당 분야(도메인)의 관련 문서를 검색해 출력물의 사실 여부를 검증한 뒤 최종 응답을 산출하는 방법이다.
하지만, 연구팀은 기업들의 주장과 달리 환각을 줄이는 효과가 충분하지 않다고 밝혔다. 환각이 발생한 비율은 17~33%에 달했다. 이는 챗GPT 등 범용 LLM를 법률 질문에 이용했을 때의 58~82%보다는 환각이 적지만(최대 82%의 결과가 환각을 포함하고 있다면, 과연 서비스로 적합할까), 여전히 상당히 많은 환각을 보이고 있다는 것이다. 특히 답변이 불완전하거나 거짓 진술을 포함한 경우, 출처를 잘못 기재하는 경우가 많았다.
2. 과학 연구에서의 환각
과학 분야 역시 LLM을 이용한 생성 AI를 적극 활용하는 분야다. 최기영 서울대 전기정보공학부 명예교수(전 과기정통부 장관)는 “이미 과학 연구에 많이 사용하고 있고 좋은 성과를 내고 있다”며 “단백질 구조 계산이나 재료의 배합비를 찾아내는 등, 통계에 의존하거나 사람이 미처 찾지 못한 해를 찾는 데에는 적격”이라고 말했다.
다만 엄밀함을 요구하는 분야인 만큼, 생성 AI 사용시 환각을 주의할 필요가 있다. 단백질 구조 예측 AI인 구글 딥마인드의 ‘알파폴드3’가 대표적이다. 알파폴드는 2018년 처음 등장한 AI로, 이전의 AI 기반 단백질 구조 예측 프로그램을 월등히 앞서는 성능을 선보여 화제가 됐다. 이후로도 여러 차례 개량을 겪었고, 2024년 등장한 알파폴드3는 기존의 알파폴드 1~2와 달리 생성 AI 기술을 접목해 체내 분자와의 결합까지 예측하는 탁월한 성능을 보여줬다(알파폴드3 관련해서는 생명과학자 남궁석 박사의 얼룩소 글을 참조하면 좋다).
하지만 환각이 문제였다. 계산 구조생물학자인 롤랜드 던브랙 미국 폭스체이스 암센터 연구원은 24일 엑스(구 트위터)에서 “알파폴드 3 모델을 이용해 BRCA1과 PALB2의 결합을 분석했는데 환각에 의한 결과가 많다. 알파 헬릭스의 90% 가까이가 환각에 의한 잘못된 모델이었다”고 주장했다.
사실 알파폴드3에서 환각 문제가 등장한 것은 알파폴드 연구자들도 이미 알고 있던 사실이다. 알파폴드3 등장을 알린 딥마인드의 2024년 네이처 논문에 이미 생성 AI 기술을 활용한 대가로 “구조화되지 않은 지역에서 그럴 듯해 보이는 구조를 만드는 환각이 문제가 될 수 있다”고 언급돼 있다. 환각은 숙명이었다는 뜻이다. 다만 해당 구조의 점수가 낮추거나 검증을 추가하는 방법으로 그 가능성을 낮출 수 있다고 연구팀은 주장했다.
3. 데이터 분석에서의 환각
데이터 분석은 개발과 함께 생성 AI가 가장 뛰어난 활약을 보일 분야로 꼽힌다. 데이터 분석을 위해 일일이 코드를 생성하지 않아도 AI가 알아서 코드를 짜고 결과를 보여줄 수 있기 때문이다. 하지만 역시 환각이 문제다.
- 의대에서 연구하며 의학 연구를 위한 코딩과 LLM 활용을 가르치는 X(구 트위터) 이용자 ‘말러팔삼’은 6월 27일 “클로드(Claude)에 환자 정보와 약물 처방 용량 데이터를 주고 분석이 가능한지 물어봤는데, 나름의 분석 결과를 내놓고 그래프도 그렸지만 죄다 환각이었다”고 말했다. 변수가 어떤 의미인지 설명을 담은 코드북이 없는데도, 변수를 자의적으로 해석해 그래프를 그린 흔적도 발견됐다. 그는 “정보가 부족하면 되묻도록 시키고 싶은데 그게 어렵다”며 “(LLM은) 알아서 빈 부분을 채워서 무작정 진행하는 성향이 너무 강하다”고 말했다.
- 김영우 데이터 분석가는 LLM을 활용한 다양한 데이터 분석 업무를 소개하는 한편, 데이터 분석 시 환각이 발생할 위험을 꾸준히 알리고 있다. 대표적으로 데이터 분석 시 없는 데이터를 생성하는 경우와, 텍스트 분석 시의 오류를 지적하고 있다.
4. 극복 혹은 다르게 보기
영국 옥스퍼드대 연구팀은 6월 20일, LLM의 환각을 또 다른 LLM을 이용해 줄일 수 있다는 연구 결과를 네이처에 공개했다. 연구팀은 환각을 정량화하고 제어하는 방법을 제안했다. 환각은 프롬프트와 관련이 없는, LLM 모델 내부의 요인 때문에 발생한다. 따라서 모델 내부에서 정량화하거나 예측할 방법은 현재로는 없고, 결과물을 평가하는 방법으로 이뤄져야 한다.
연구팀은 환각에 의한 답변은 불안정성이 높다는 데에 착안해, 다른 LLM으로 LLM 답변의 불안정성을 확인하는 방법을 고안했다. 먼저 의미론 분석 LLM(두 번째 LLM)이 원래 LLM 답변을 의미의 유사도를 기준으로 분류하고, 제3의 LLM이 이를 바탕으로 불안정성을 측정해 엔트로피라는 수치로 정량화했다. 엔트로피가 높은 답은 환각 가능성이 높은 것으로 평가했다. 네이처는 “일종의 맞불 작전”이라고 평가했다.
그 외에도 모순되는 정보를 필터링하고 충실한 데이터세트를 구축하는 방법, 내부 가중치를 조정하는 방법, 추가 질문을 하는 방법, 답변을 분석해 피드백을 제공하는 방법, 외부 정보를 추가로 제공하는 방법(RAG) 등이 논의되고 있다. 마이크로소프트가 2일 자사의 RAG 코드를 공개한 것도 같은 맥락이다. 해양 기후 예측 AI 분야를 개척하고 있는 함유근 전남대 해양학과 교수는 “추가적인 제약 조건을 넣어 관련 문서를 함께 출력하게 하거나, 결과물을 도출하는 과정에 대한 설명을 제공하는 등의 노력이 이뤄지고 있다”고 말했다. 다만 아직 이 분야 이론은 부족하고 연구는 초기 단계인 만큼, 당분간은 AI가 제안한 결과에 대해 사람이 검증하는 과정이 필요할 것으로 보인다.
생성 AI가 보다 활약할 수 있는 분야를 다시 찾는 방법도 생각해볼 수 있다. 사실을 다뤄야 하는 분야나 분석, 검색 분야가 아닌, 창작이나 기획과 관련한 분야를 생각해볼 수 있다. 이 분야는 환각에서 자유로울 뿐만 아니라, 오히려 기존에 생각하지 못했던 색다른 결과물을 만드는 데 환각이 도움이 될 수 있다. 전에 없던 해법을 찾아야 하는 과학이나 연구에도 기여할 수 있다. 최 교수는 “미처 생각하지 못했던 가능성을 찾아줄 수 있다”며 “충분히 믿을 만한 AI가 나올 때까지는 AI가 생성한 결과를 사람이 검증하고 확인해야겠지만, 그럼에도 불구하고 연구자나 개발자의 생산성을 향상시키는 데에는 큰 도움이 될 것”이라고 말했다. 그는 “사람도 실수를 한다”며 “궁극적으로 AI가 사람보다 더 믿을 만하다고 여겨지는 분야가 점점 더 많아질 것”이라고 말했다.
by 윤신영 에디터
by 윤신영 에디터
@노영식 맞아요. 태연히 이야기를 하는데 깜빡 속기 좋죠. 잘 걸러내고 확인하면 되는데, 걱정되는 건 그렇지 못하고 퍼지는 가짜 소식이에요. 과연 미래가 어떻게 될지 살펴보고 싶습니다.
석기시대 언어에 대해 관심이 있어 물어본 적이 있습니다. 현재 학계에서는 남아 있는 자료가 없어 전혀 관심이 없고 연구되어 있지도 않는데 그럴 듯하게 답했습니다. 연구가 잘 되고 있다고요. 엉터리입니다.
@김재경 챗gpt-4o입니다.
혹시 맨 위에 남기신 챗봇의 api는 어떤게 적용되어 있나요?
@노영식 맞아요. 태연히 이야기를 하는데 깜빡 속기 좋죠. 잘 걸러내고 확인하면 되는데, 걱정되는 건 그렇지 못하고 퍼지는 가짜 소식이에요. 과연 미래가 어떻게 될지 살펴보고 싶습니다.
석기시대 언어에 대해 관심이 있어 물어본 적이 있습니다. 현재 학계에서는 남아 있는 자료가 없어 전혀 관심이 없고 연구되어 있지도 않는데 그럴 듯하게 답했습니다. 연구가 잘 되고 있다고요. 엉터리입니다.
@김재경 챗gpt-4o입니다.
혹시 맨 위에 남기신 챗봇의 api는 어떤게 적용되어 있나요?