좋은 글 감사합니다.
ChatGPT와 지난 2020년 화제가 되었던 GPT-3와 무엇이 달라졌는지 찾아본 적이 있습니다. 핵심은 GPT-3가 사람이 선호하는 응답을 내도록 트레이닝하고 인터페이스를 조정한 것에 있더군요.
GPT-3은 Common crawl이라고 하여, 인터넷 상의 온갖 문장을 긁어모은 데이터셋으로 부터 학습되었다고 합니다. 그러다 보니, 윤리적으로든 적절성으로든 사람이 선호하는 대답을 보장하지 않는다는 결점이 있었다고 해요.
그래서 사람이 선호하는 문장을 내도록 학습하는 과정을 추가했다고 합니다. 그 과정에 InstructGPT가 있었고, 이를 Chat에 특화시킨 ChatGPT가 탄생했다고 하네요.
먼저, 사람이 선호하는 대답을 교육시키기 위한 과정(InstructGPT)은 위와 같이 3개의 스텝을 따르는데요, 이 중 사람 아이콘이 있는 과정에 훈련을 받은 라벨러들이 참여했다고 해요. 이 사람들은 대답의 예시를 만들거나(step1), 모델에서 나온 여러...