AI로 쉽게 데이터 분석하기 : ChatGPT-4 Code Interpreter

김재경
김재경 인증된 계정 · Active Researcher
2023/08/10
Midjourney로 생성한, 데이터를 분석하는 AI 이미지


우리가 특정 사회적, 과학적인 주장을 할 때 근거로 가장 많이 쓰이는 것을 하나 꼽으라면 '데이터'죠. 다양한 통계, 지표 등을 활용하여 우리는 여러 가지 주장에 더 힘을 실을 수 있다. 정말 감사하게도, 세상에는 공짜로 얻을 수 있는 데이터가 꽤 있다. 하지만 그 데이터 파일들을 분석하는 것은 관련 수업을 듣지 않고 자력으로 하기는 정말 어려운 일이며, 알고 있다고 하더라도 데이터를 정리하는 일(클렌징)은 시간이 많이 든다. 23년 7월에 공개된 ChatGPT-4의 'Code Interpreter'는 데이터 분석에 뛰어나다는데, 과연 많은 연구와 활동에 힘을 실어줄 수 있을까?



1단계 : 데이터와 코드북 준비하기


KGSS 코드북


저는 이번 글에서 간단하게 예시로 '한국의 중도층'에 대해 AI로 분석해 보려고 하는데요, ChatGPT-4의 Code Interpreter를 사용하기 위해서는 23년 8월 10일 기준 다음과 같은 준비물이 필요합니다.

  • ChatGPT 유료 구독(월 2만원)
  • 분석하려는 데이터와 변수명 파악(가능하면)
  • 분석하려는 데이터의 코드북

데이터 분석에 익숙하지 않으신 분들은 '코드북'이 무엇인가 궁금하실 겁니다. 쉽게 말하면, '데이터 설명서'입니다. 위 이미지는 제가 이번에 분석한 데이터 두 개중 하나인 KGSS(한국종합사회조사)데이터의 코드북입니다. Ctrl + F로 원하는 데이터 종류를 찾거나, 목차를 보고 내가 원하는 데이터가 있을 만한 곳을 찾습니다. 저는 KGSS에서 한국의 '중도'비율 변화를 보고 싶었으므로 '증도'라고 검색해서 원하는 데이터와 그 변수명을 확인합니다.

KGSS에서 연도별 중도층의 비율을 알 수 있는 변수명은 'PARTYLR'이네요(뒤에 나오겠지만, 변수명 몰라도 됩니다).




2단계 : 데이터 정리하기

저희가 코드북 - 데이터 메뉴얼을...
얼룩패스
지금 가입하고
얼룩소의 모든 글을 만나보세요.
이미 회원이신가요? 로그인
인공지능, 정치과정, 국제정치, 사회 시사 이슈 등 다루고 싶은 걸 다룹니다. 기술과 사회에 관심이 많은 연구활동가(Activist Researcher)입니다. 연구, 협업 등 문의 tofujaekyung@gmail.com
583
팔로워 1.5K
팔로잉 317