[프롬프트 엔지니어링 #2] 추론을 강화하는 Chain-of-Thought
2024/01/30
지난해 챗GPT가 나왔을 때, 변호사 시험, MBA 시험 등을 통과하는 것으로 그 성능을 테스트 했습니다. GPT-3.5는 미국 변호사 시험을 하위 10%로 통과했고, GPT-4는 상위 10% 수준으로 통과했었습니다.
한국의 유저들도 비슷한 테스트를 진행했습니다. 챗GPT로 한국 대학수학능력 시험을 보게한 것입니다. GPT-3.5는 다소 실망스러운 성적을 보였습니다. 언어 영역에서 하위16%의 성적을 기록하며 7등급을 맞은 것입니다. 얼마 지나지 않아 등장한 GPT-4는 순식간에 성적을 올렸습니다. 같은 시험에서 상위 17%로 3등급 정도의 점수를 기록한 것입니다. 여담이지만 재미있는 것은 여기서 오답을 내는 패턴을 보면 사람들이 오답을 고르는 것과 유사했다는 것입니다.
GPT-4에 약간의 프롬프트 엔지니어링 테크닉을 적용하여 다시 문제를 풀게 해 보았습니다. 프로젝트팀 노마다마스에서 한 실험인데요, 약간의 테크닉을 더하자 언어영억 2등급(상위 5%)을 달성했다고 합니다. 여기서 적용되었던 테크닉이 바로 사고 사슬(Chain-of-Thought, COT)입니다. COT(Chain...
한국의 유저들도 비슷한 테스트를 진행했습니다. 챗GPT로 한국 대학수학능력 시험을 보게한 것입니다. GPT-3.5는 다소 실망스러운 성적을 보였습니다. 언어 영역에서 하위16%의 성적을 기록하며 7등급을 맞은 것입니다. 얼마 지나지 않아 등장한 GPT-4는 순식간에 성적을 올렸습니다. 같은 시험에서 상위 17%로 3등급 정도의 점수를 기록한 것입니다. 여담이지만 재미있는 것은 여기서 오답을 내는 패턴을 보면 사람들이 오답을 고르는 것과 유사했다는 것입니다.
GPT-4에 약간의 프롬프트 엔지니어링 테크닉을 적용하여 다시 문제를 풀게 해 보았습니다. 프로젝트팀 노마다마스에서 한 실험인데요, 약간의 테크닉을 더하자 언어영억 2등급(상위 5%)을 달성했다고 합니다. 여기서 적용되었던 테크닉이 바로 사고 사슬(Chain-of-Thought, COT)입니다.
AWS에서 신서비스 사업개발을 하고 있습니다. 최근에 "챗GPT, 거대한 전환" 책을 출간한 작가이기도 합니다. 챗GPT(생성 AI)로 시작된 거대한 변화와 최신 IT 이슈를 공유하며 이 치열한 AI 전쟁에서 여러분과 함께 생존해 나가고자 합니다. email: sbaek.kr@gmail.com