PubMed 검색 + Claude 3 을 이용한 학술논문 자료 탐색 by 남궁석

PubMed 검색 + Claude 3 을 이용한 학술논문 자료 탐색

남궁석 · SLMS

2024/03/21

LLM의 할루시네이션 현상을 해결하는 방법

LLM을 학술 논문 작성과 같이 팩트체크가 중요한 글 작성에 사용할때 가장 문제가 되는 것은 LLM이 가지는 특성인 할루시네이션이다. LLM은 많은 양의 텍스트 문서를 통하여 학습되면서 부지불식간에 이러한 텍스트 문서의 내용에 대한 정보를 단편적으로 가지고 있지만, 어디까지나 LLM은 이러한 문서를 기반으로 '그럴싸한 문장을 만들어 내는 도구' 인 관계로 논문의 참고 문헌과 같이 팩트 그 그대로가 중요한 정보를 생성할 때 '그럴싸하지만 실제로는 존재하지 않는 가공의 정보' 를 만들어 낼 우려가 있다.

이러한 것에 대처하기 위해서는 결국 프롬프트를 통하여 사전에 참고할 정보를 제공하는 것이 중요하다. 사실 MS Copilot 이나 Gemini 와 같은 도구에서 어떤 질문을 주면, 내부적으로는 이의 키워드를 이용하여 검색을 실시하고, 이렇게 검색된 결과를 프롬프트로 LLM에 주어서, 이러한 정보를 기반으로 응답을 얻어내는 것이 한 가지 방법이다. 다른 방법이라면 참고할 텍스트를 잘 나누어 벡터 DB 형태로 임베딩한 후, 검색어와 유사한 텍스트를 검색하여 프롬프트에 같이 제공하는 방식으로 진행될 수도 있다.

또 다른 방법은 아예 LLM이 사용하는 프롬프트와 답변을 포함하는 컨텍스트 윈도우 (Context Window)를 매우 길게 하여 참고를 할 자료를 몽땅 다 제공하는 것이다. 가령 논문이나 책 내용을 통째로 제공할 수 있을 정도로 컨텍스트 윈도우가 길어진다면 굳이 내용의 일부만을 검색하여 제공하는 수고를 할 것도 없이 모든 자료를 통째로 다 주고, LLM이 답변을 생성하는데 사용하도록 하는 것이다.

Claude 3 Opus의 컨텍스트 윈도우는 약 200,000 토큰으로써, 책으로 이야기하면 약 350 페이지 정도의 단행본 내용을 주고 여기에 대한 내용을 참조하여 응답을 형성하게 할 수 있는 것이다.

이전에 GPT-4 가 처음 등장하였을때 ChatGPT를 이용하여 약 7-8편 정도의 논문 초록을 PubMed 에...