마스터링 AI

라이뷰

마스터링 AI

검사 해석부터 진단 예측까지…의료 현장 ’지휘자’ 맡는 AI

집현네트워크
집현네트워크 인증된 계정 · 더 나은 지식기반 사회를 지향합니다.
2024/12/03

초기 AI 시스템은 컴퓨터에 의료 지식을 규칙 형태로 저장해 특정 증상이 나타나면 이에 맞는 진단이나 치료를 제안하는 방식으로 운영됐다. 예를 들어, 환자가 열이 있고 특정 증상이 나타나면 감염을 의심하고 항생제를 권장하는 식이다. 
 
이 규칙은 전문가가 작성했다. 자연히 시스템의 한계 역시 전문가의 지식과 작성된 규칙의 수에 크게 의존한다는 데에서 왔다. 대표적인 초기 시스템으로는 1972년 미국 스탠퍼드대가 개발한 MYCIN이 있다. 이 시스템은 환자 정보와 600여 개의 규칙을 바탕으로 세균 감염을 진단하고 적합한 항생제를 추천했다. 세균 감염 진단에서 높은 정확도를 보이며 이후 다양한 의료 전문가 시스템의 기초가 됐다. 하지만 이런 시스템엔 단점이 있었다. 고정된 규칙을 기반으로 하다 보니 예외 상황이나 새로운 의료 지식에 유연하게 대처하기 어렵다는 점이었다.
 
이런 한계를 극복하기 위해 머신러닝이 등장했다. 머신러닝은 컴퓨터가 스스로 데이터를 분석하고 그 안에서 패턴이나 규칙을 학습하도록 한다. 이를 통해 사람이 일일이 규칙을 작성하지 않아도 새로운 유형에 유연하게 대응할 수 있게 됐다. 하지만 머신러닝 또한 인공지능(AI)이 데이터를 잘 이해할 수 있도록 인간이 데이터의 특징(feature)을 미리 명시해줘야 하는 경우가 많았다. 이런 머신러닝의 한계를 다시 한 번 뛰어넘은 것이 딥러닝이다. 여러 층으로 구성된 딥러닝 신경망은 스스로 데이터의 특징을 추출할 수 있으며, 이전에는 AI가 이해하기 어려웠던 시각 정보나 언어 정보도 이해할 수 있게 됐다 (그림 1). 구글 헬스 연구팀이 2016년 발표한 당뇨성 망막병증 진단 모델이 대표적이다. 딥러닝을 이용한 AI가 전문가 수준의 정확도로 질병을 감지할 수 있음을 증명했다. 
[그림 1] 인공지능(AI)은 규칙기반모델에서 머신러닝, 딥러닝, 원천모델로 발전했다. 이솔


새로운 패러다임 변화: 딥러닝 vs. 원천(파운데이션) 모델

딥러닝 혁명 이후, 인공지능 분야의 눈부신 발전과 함께 또 다시 새로운 패러다임 변화가 일어나고 있다. 기존의 딥러닝 패러다임에서는 특정 문제를 해결하기 위해 그에 특화된 개별 모델을 개발하고 학습하는 방식을 썼다. 기존보다 뛰어난 성능을 제공할 수 있지만, 각각의 모델이 특정 작업에만 유효하다는 한계가 있었다. 새롭게 다른 문제를 다룰 때는 새로운 모델을 개발하거나, 기존 모델을 다시 학습시켜야 했다.
 
원천 모델(파운데이션 모델)은 딥러닝의 이런 단점을 극복한 새로운 패러다임으로, 다양한 작업에 적응할 수 있도록 설계된 거대한 범용 모델이다. 원천 모델은 방대한 양의 데이터로 사전 학습돼 있으며, 이를 바탕으로 특정 과제에 맞게 미세 조정할 수 있다. 즉, 하나의 모델을 여러 작업에 쉽게 적용할 수 있다. 대표적인 예가 바로 ChatGPT다. 예를 들어, 기존에는 주어진 댓글이 긍정적인지 부정적인지를 판단하는 감정 분석 모델과, 문장의 전반부를 주면 후반부를 예측하는 문장 완성 모델이 각각 있어서 각각 감정 분석과 문장 완성만을 처리할 수 있었다. 하지만 ChatGPT와 같은 원천 모델은 감정 분석, 문장 완성을 포함해 자연어 처리 분야의 다양한 업무에 범용으로 적용할 수 있다 (그림 2).
[그림 2] 원천 모델(파운데이션 모델)은 딥러닝의 단점을 극복한 새로운 패러다임으로, 다양한 작업에 적응할 수 있도록 설계된 거대한 범용 모델이다.


딥러닝의 시대에 원천 모델로의 전환이 중요한 이유는 크게 세 가지다.
  • 범용성: 원천 모델은 초기 학습 단계에서 굉장히 큰 규모의 데이터를 사용하기 때문에, 다양한 영역과 과제에 대해 이해하고 있다. 따라서 프롬프팅(AI에게 일을 지시하는 일련의 과정)이나 미세 조정을 통해 여러 가지 용도에 적용할 수 있다.
  • 효율성: 적은 데이터로도 과제를 수행할 수 있다. 기존 모델은 특정 과제에 맞춰 학습 데이터를 새로 모으고, 개별 모델을 처음부터 학습해야 했다. 그래서 데이터와 시간, 그리고 학습에 사용되는 자원이 많이 필요했다. 반면, 원천 모델은 이미 대규모 데이터로 사전에 학습했기 때문에, 특정 과제에 맞춰 간단히 미세 조정만 거치면 된다. 특히 데이터가 부족한 질병 영역을 다룰 때 유용하다.
  • 성능: 원천 모델은 자기지도 학습을 통해 레이블이 없는 데이터를 사용해 훈련할 수 있으므로 학습 데이터의 규모를 키우기 쉽다. 이렇게 키운 데이터를 이용해 규모가 큰 모델을 학습할 경우, 기존의 비교적 작은 모델을 훈련했을 때는 찾아볼 수 없었던 수준의 성능을 낼 수 있다. 예를 들어 ChatGPT는 1750억 개의 파라미터로 이뤄진 대형 모델이다. 수학, 글쓰기, 의료 등 다양한 분야의 지식을 바탕으로 주어진 질문에 대해 기존 모델을 훨씬 뛰어넘는 수준의 정확한 답변을 제공해 인간의 생각이나 추론의 일종을 실행하는 듯한 모습을 보여준다.
 
원천 모델 응용 연구는 의료 영역에서 활발하다. 특히, 원천 모델의 종류인 대형언어모델(LLM)이 의료 분야에 특화돼 개발되고 있다. 대표적으로 구글의 메드팜(Med-PaLM)은 미국의사고시(USMLE)를 높은 점수로 통과해 주목받았다. 자연어 외에 이미지 데이터까지 대규모로 훈련한 원천 모델(예를 들어 확산 모델)은 시각 정보까지 이해할 수 있어, 데이터가 적은 의료 영상을 이해하는 모델을 훈련시킬 때 효율성을 높일 수 있다. 강력한 의료 영상 AI 개발의 원동력이다.
 
 

의료현장 의사결정 지원하는 의료언어모델

병원에는 전자건강기록(EHR, Electronic Health Record), 임상 노트, 의학 논문, 진단 결과 등 다양한 형태의 방대한 텍스트 정보가 존재한다. 의료 언어모델은 이런 의료 및 임상 데이터를 학습해, 의료진이 진단과 치료, 데이터 분석에 필요한 정보를 신속하게 탐색하고 제공해 의사결정을 지원한다. 언어모델의 다른 강점은 비정형 데이터도 사용할 수 있다는 점이다. 기존 머신러닝 모델은 정형화된 환자 데이터로만 생존 예측 작업을 수행했는데, 모든 환자에게 필요한 데이터를 얻기 어렵다는 한계가 있었다. 의료 언어모델은 정형 데이터뿐만 아니라 비정형 데이터도 함께 활용할 수 있다는 점에서 그동안 사용이 어려운 수많은 의료 데이터를 효율적으로 사용할 수 있게 해준다 (그림 3). 
[그림 3] 의료 언어모델은 비정형 데이터까지 사용할 수 있다. 의료 영상의 경우에는 확산 모델을 이용한 복원과 재구성이 가능하다. 이솔


또한 언어모델은 학습한 데이터를 기반으로 추가적인 데이터셋을 생성할 수 있다. 예를 들어 질병 데이터셋은 클래스 불균형 문제(class-imbalance problem, 학습 데이터의 클래스 변수가 치우쳐서 편형된 모델. 머신러닝 모델의 성능을 떨어뜨릴 수 있다)로 인해 다른 종류의 데이터셋에 비해 부족한 경우가 많다. 이를 해결하기 위해 실제 의사가 작성한 진료기록(clinical note)과 유사한 형태의 합성 데이터를 언어모델을 이용해 생성할 수 있다. 이 합성 데이터를 통해 질의 응답, 요약, 관계 추출 등 다양한 작업을 위한 데이터셋을 구축해, GPT-3.5와 비슷한 성능을 달성한 사례가 보고되기도 했다.
 
언어모델은 단어 임베딩을 통해 사용자의 질문과 가장 유사한 정보를 검색할 수 있다. 의료 분야는 빠르게 발전하는 지식이 많아 모델을 매번 업데이트할 수 없는데, 이를 해결하기 위해 검색증강생성(RAG, Retrieval-Augmented Generation) 방식을 사용할 수 있다. 사용자의 요청이 들어오면 최신 논문(PubMed) 혹은 교과서에서 관련 정보를 검색해 사용자의 요청과 가장 유사한 정보를 가져올 수 있다. 사용자 요청과 함께 유사한 정보를 모델에 입력해 더욱 신뢰성 있는 답변을 제공할 수 있다.
 
이와 같이, 의료 언어모델은 인력이 부족한 의료 산업에서 환자 정보를 신속히 분석하고 필요한 정보를 제공하는 효율적인 도구가 될 수 있다. 이를 통해 의료진의 업무 부담을 줄이고, 반복적이고 단순한 작업을 AI가 대신해 의료진이 환자 치료에 더욱 집중하는 환경을 마련할 수 있다.
 
 

영상 생성의 의료 기여: 확산 모델 기반 영상 재구성

의료 영상을 통해 환자의 상태를 정확히 진단하고 치료 계획을 세우는 것은 매우 중요하다. 그러나 자기공명영상(MRI)이나 컴퓨터단층촬영(CT) 스캔을 포함한 의료 영상 촬영에는 종종 긴 시간이 소요되거나, 환자의 체내 방사선 노출을 증가시키는 한계가 있다. 이런 문제를 해결하고자, 딥러닝 기술인 확산 모델이 의료 영상 복원과 재구성 분야에서 원천 모델로 주목받고 있다. 
 
확산 모델은 복잡한 데이터를 생성하거나 복원하는 데 초기의 임의의 노이즈 상태에서부터 점진적으로 원본 이미지를 복원하는 과정을 거치며, 마치 그림을 스케치하는 것처럼, 혹은 지우개로 영상의 노이즈를 반복적으로 제거하는 것처럼, 점진적으로 세부사항을 더해가는 방식이다. 일반적인 딥러닝 모델은 주어진 입력에서 출력을 예측하는 방식으로 작동하지만, 확산 모델은 노이즈로 가득 찬 상태에서부터 점진적으로 데이터를 되돌리는 방식으로 학습한다 (그림 4). 
[그림 4] 확산 모델은 마치 그림을 스케치하거나 지우개로 노이즈를 반복적으로 제거하듯 점진적으로 세부사항을 더해 이미지를 복원한다.


이 과정은 일종의 '역방향 프로세스'로 볼 수 있으며, 덕분에 원본 이미지에 충실한 데이터를 생성할 수 있다. 이런 특성 덕분에 확산 모델은 사진 품질이 낮거나 손실된 부분이 있는 경우에도 자연스러운 이미지 생성이 가능하다. 특히 의료 영상에서 흔히 발생하는 ‘역문제(inverse problem)’를 해결하는 데 효과적이다.
 
역문제란 촬영된 영상을 통해 원본 정보를 복원하는 문제다. 예를 들어 MRI, CT 스캔, 초음파 영상 등은 빠른 촬영이 어려워 불완전한 데이터가 수집될 수 있는데, 이렇게 의료 영상을 찍을 때 짧은 시간 내에 얻은 일부 데이터만으로 전체 영상을 만들어내는 것이 역문제에 해당한다 (그림 5). 
[그림 5] MRI, CT 스캔, 초음파 영상 등은 빠른 촬영이 어려워 불완전한 데이터가 수집될 수 있다. 확산 모델은 짧은 시간 내에 얻은 일부 데이터만으로 전체 영상을 만들어낸다.


확산 모델은 역문제를 해결하기 위해 ‘생성적 사전 정보(Generative Prior)’ 로 작동할 수 있다. 이는 모델이 이미 학습한 대량의 데이터로부터 일종의 규칙이나 패턴을 파악하고, 불완전한 데이터에서 이를 이용해 원본에 가까운 영상을 재구성하는 방식이다. 다양한 영상 데이터로 학습하고 나면 서로 다른 다양한 문제에 모두 적용하기 때문에, 확산 모델은 원천 모델로 MRI 영상 복원, 디노이징, 초고화질 등 문제에 적용할 수 있으며 각각에 특화된 모델보다 뛰어난 성능을 보인다.
 
확산 모델을 이용한 영상 고도화는 기존처럼 하나의 정답 예측 영상만을 제공하는 것이 아니라, 다양한 정답 예측 영상을 만들어낼 수 있다. 불확실성 측정이 가능해지고, 해당 영상을 특정 부위에서 얼마나 믿을 수 있을지 판단할 수 있게 된다. 이를 통해 적용 범위에 따라 가속화 정도를 조절하는 등 피드백도 가능해진다 (그림 6).
[그림 6] 확산 모델을 이용하면 다양한 정답 예측 영상을 만들어낼 수 있다.


언어와 영상의 통합.  '멀티모달 파운데이션 모델'

2022년 ChatGPT가 인간과 비슷한 수준의 언어 이해 능력을 보여주면서, LLM이 언어를 넘어 영상, 음성 등 다양한 데이터를 동시에 이해할 수 있는 멀티모달 파운데이션 모델로 발전할 가능성을 보여줬다. 이후 데이터브릭스(Databricks)의 돌리(Dolly), 메타(Meta)의 OPT와 라마(LLaMA)와 같은 경량 대형언어모델(sLLM; 파라미터 10억~700억)이 나왔다. 개인이 필요에 맞는 파운데이션 모델을 직접 개발할 수 있는 기반이 마련됐다. 
 
초기 멀티모달 파운데이션 모델인 BLIP-2와 라바(LLaVA)는 대량의 고품질 이미지-텍스트 데이터셋으로 sLLM을 학습해, sLLM이 2차원 이미지에서 여러 객체를 인식하고 이를 구체적으로 묘사하는 능력을 학습할 수 있음을 보여줬다 (그림 7). 
[그림 7] 사진 내 물체 인식 및 자세한 묘사가 가능한 BLIP-2 모델. BLIP-2 논문 참조


이런 초기 모델은 영상 데이터를 기반으로 환자를 진단해야 하는 의료 분야에 바로 적용돼 의료용 멀티모달 파운데이션 모델의 탄생을 알렸다. 특히, 공개 데이터셋이 풍부한 흉부 X선(CXR) 이미지에 대한 멀티모달 파운데이션 모델 연구가 활발히 진행됐다. BLIP-2의 큐포머(Q-Former) 모듈을 빌린 ChexAgent와, LLaVA 모델 프레임워크를 활용한 라바메드(LLavA-Med) 및 라바래드(LLaVA-Rad)가 흉부 X선 영상에 대해 판독문을 자동 생성하고 질의응답하는 데 탁월한 성능을 자랑하고 있다 (그림 8).
[그림 8] LLaVA-Rad 모델 구조(왼쪽) 및 LLaVA-Rad의 CXR 영상 진단 예시(오른쪽). LLaVA-Rad 논문 참조


의료 AI의 미래: 전문가 모델과 LLM의 융합

이런 단일 의료용 멀티모달 파운데이션 모델에도 단점은 있다. 단일 영상 인코더로 획득한 영상 정보를 LLM이 해석할 수 있는 임베딩으로 변환하는 과정에서 정보 손실이 발생할 수 있다. 영상 내 임상 정보를 완벽히 이해하는 데 한계가 있다는 뜻이다. 실제 의료 현장에서 의료진을 보조하거나 대체하기에는 정확도 측면에서 부족하다는 평가가 나온다. 현재 의료용 파운데이션 모델 개발이 모델의 간편성과 학습 효율성에 집중하는 나머지, 사용자의 요구와 의도를 반영하는 '인터랙션 중심 AI'의 중요성을 간과하기 때문이다. 
 
인터랙션 중심 AI란 1) 사용자의 의도와 가치를 최대한 반영하고, 2) 다양한 사용자의 요구를 고려할 수 있는 AI 기술을 의미한다. 그러므로 유용한 의료 멀티모달 파운데이션 모델은 1) 환자의 생명 보호 차원에서 진단의 정확도가 필수이며, 2) 여러 의료 기관에서 범용적으로 사용할 수 있어야 한다. 
 
하지만 의료기관마다 영상 전처리 방식과 진단 프로세스가 다르므로, 모든 기관에서 동일한 성능을 발휘하는 단일 멀티모달 파운데이션 모델을 개발하는 것은 현실적으로 어렵다.
 
프라나프 라이푸르카르 하버드대 의생명정보학과 교수팀이 개발한 메드버사(MedVersa)는 라마2챗(LLaMA-2-Chat)을 마치 관현악 지휘자(orchestrator) 역할로 활용한다. 주어진 영상 데이터와 지시문에 따라 LLaMA-2-Chat이 적절한 영상 특화 시각 모듈을 선택한 뒤 그들의 결과를 종합해 최종 진단을 도출한다. 이를 통해 MedVersa는 방사선 사진, CT 스캔, 피부경 검사 이미지 등 다양한 의료 영상을 대상으로 총 11개의 진단 관련 작업을 수행한다. 이 가운데 9개의 작업에서는 최고 성능을 보인다. MedVersa는 유연한 구조 덕분에 새로운 영상 모듈을 쉽게 추가할 수 있어, 최신 의료 영상 기술 발전에 따라 시스템을 계속 업데이트할 수 있다는 장점도 있다.
[그림 9] 메드버사(MedVersa) 프레임워크. MedVersa 논문 참조


이와 같이, 생성형 AI 시대의 의료 인공지능 기술은 단일 멀티모달 파운데이션 모델에 의존하기보다, 특정 소견 예측 성능에 탁월한 여러 전문가(Expert) 모델의 결과를 단일 의료 LLM이 종합해 임상에서 유용한 정보를 요약, 제공하는 방식으로 발전하고 있다 (그림 10). 단일 멀티모달 파운데이션 모델이 제공할 수 없던 영상 내 소견 정보를 최대한 유지하고, LLM이 관련 없는 정보를 생성해 내는 환각(할루시네이션) 현상도 최소화할 수 있다. 단일 LLM이 진단에 필요한 전문가 모델을 직접 선택한 뒤 모델 실행까지 할 수 있게 한다면, 본 LLM이 전체 진단 프로세스까지 맡게 될 것이다. 
[그림 10] 앞으로의 의료 AI는 단일 모델 대신 다수의 전문가 모델이 상호작용하고, 이를 통합하는 LLM이 최종 진단 결과를 의료진에게 제공하는 방향으로 발전할 가능성이 크다. 이솔


이처럼, 앞으로의 의료 AI는 단일 모델 대신 다수의 전문가 모델이 상호작용하고, 이를 통합하는 LLM이 최종 진단 결과를 의료진에게 제공하는 방향으로 발전할 가능성이 크다. 생성형 AI 시대에 의료 인공지능이 나아갈 새로운 발전 방향이다. 다양한 데이터를 효과적으로 융합해 임상 현장에 실질적인 도움을 줄 수 있는 시스템을 구축하는 데 중요한 시사점이 될 것이다.
 


글   예종철 KAIST 김재철AI대학원 교수
그림 이솔 과학일러스트레이터·약사
기획 사단법인 집현네트워크 
시리즈 기획 최기영 전 서울대 교수(전 과학기술정보통신부 장관)
편집 윤신영 alookso 에디터


이 프로그램은 과학기술진흥기금 및 복권기금의 재원으로 운영되고 과학기술정보통신부와 한국과학창의재단의 지원을 받아 수행된 성과물로 우리나라의 과학기술 발전과 저소득 소외계층의 복지 증진에도 기여하고 있습니다. 
더 나은 지식기반 사회를 향한 과학자·전문가 단체입니다. 상호 교류를 통해 지식을 집산·축적하는 집단지혜를 추구합니다. alookso와 네이버를 통해 매주 신종 감염병, 기후위기, 탄소중립, 마이크로비옴을 상세 해설하는 연재를 진행하고 있습니다.
142
팔로워 1.4K
팔로잉 0