AI로 쉽게 데이터 분석하기 : ChatGPT-4 Code Interpreter
2023/08/10
우리가 특정 사회적, 과학적인 주장을 할 때 근거로 가장 많이 쓰이는 것을 하나 꼽으라면 '데이터'죠. 다양한 통계, 지표 등을 활용하여 우리는 여러 가지 주장에 더 힘을 실을 수 있다. 정말 감사하게도, 세상에는 공짜로 얻을 수 있는 데이터가 꽤 있다. 하지만 그 데이터 파일들을 분석하는 것은 관련 수업을 듣지 않고 자력으로 하기는 정말 어려운 일이며, 알고 있다고 하더라도 데이터를 정리하는 일(클렌징)은 시간이 많이 든다. 23년 7월에 공개된 ChatGPT-4의 'Code Interpreter'는 데이터 분석에 뛰어나다는데, 과연 많은 연구와 활동에 힘을 실어줄 수 있을까?
1단계 : 데이터와 코드북 준비하기
저는 이번 글에서 간단하게 예시로 '한국의 중도층'에 대해 AI로 분석해 보려고 하는데요, ChatGPT-4의 Code Interpreter를 사용하기 위해서는 23년 8월 10일 기준 다음과 같은 준비물이 필요합니다.
저는 이번 글에서 간단하게 예시로 '한국의 중도층'에 대해 AI로 분석해 보려고 하는데요, ChatGPT-4의 Code Interpreter를 사용하기 위해서는 23년 8월 10일 기준 다음과 같은 준비물이 필요합니다.
- ChatGPT 유료 구독(월 2만원)
- 분석하려는 데이터와 변수명 파악(가능하면)
- 분석하려는 데이터의 코드북
데이터 분석에 익숙하지 않으신 분들은 '코드북'이 무엇인가 궁금하실 겁니다. 쉽게 말하면, '데이터 설명서'입니다. 위 이미지는 제가 이번에 분석한 데이터 두 개중 하나인 KGSS(한국종합사회조사)데이터의 코드북입니다. Ctrl + F로 원하는 데이터 종류를 찾거나, 목차를 보고 내가 원하는 데이터가 있을 만한 곳을 찾습니다. 저는 KGSS에서 한국의 '중도'비율 변화를 보고 싶었으므로 '증도'라고 검색해서 원하는 데이터와 그 변수명을 확인합니다.
KGSS에서 연도별 중도층의 비율을 알 수 있는 변수명은 'PARTYLR'이네요(뒤에 나오겠지만, 변수명 몰라도 됩니다).
2단계 : 데이터 정리하기
저희가 코드북 - 데이터 메뉴얼을...
인공지능, 정치과정, 국제정치, 사회 시사 이슈 등 다루고 싶은 걸 다룹니다.
기술과 사회에 관심이 많은 연구활동가(Activist Researcher)입니다.
연구, 협업 등 문의 tofujaekyung@gmail.com
분석이 제대로 맞아도 걱정입니다. 그러면 취향대로만 정책 내놓으면 표 얻기는 쉬울 것이 아닙니까? 그리고 안 지키고