히든그레이스가 말하다

히든그레이스의 생각을 담아내는 

일상 속 분석을 쉽고 재미있는 블로그로 만나보세요

히든그레이스가 말하다

히든그레이스의 생각을 담아내는 일상 속 분석을

쉽고 재미있는 블로그로 만나보세요

데이터 분석텍스트분석 : 아이유 설문조사 ①

2022-05-04
조회수 212


히든그레이스가 하는 일

저희 히든그레이스는 데이터 분석 사회적 기업으로 각종 설문조사, 논문 데이터, 자기소개서, 통계자료 등 다양한 데이터를 맡아서 분석하는 일을 합니다. 이번 주제에서 다룰 내용은 설문조사 데이터의 분석 의뢰가 들어왔을 때 히든그레이스가 어떤 과정을 거쳐서 데이터를 분석하고 결과가 어떻게 나오는지에 대해 연재하려고 합니다.


텍스트분석이란?

텍스트분석은 통계 및 언어 기술, 그리고 머신러닝을 활용하여 비정형 텍스트를 분석하는 기법입니다. 비정형 텍스트란 규칙이 정해져 있지 않은 텍스트를 말하는데요, 예를 들어 우리가 일상적인 대화에서 사용하는 문장들이 비정형 텍스트에 속합니다.




▶ 객관식 정형 데이터 vs 주관식 비정형 데이터


이 설문지는 히든그레이스에서 실제로 진행하고 있는 설문의 한 문항인데요, 대부분의 설문지는 이렇게 객관식으로 된 형태가 많습니다. 

그리고 이러한 설문지로 모인 데이터는 미리 주어진 규칙에 따라서 1번~5번 선택지로 분류되므로 정형 데이터라고 할 수 있습니다.


그런데 저희가 이번에 받은 분석 의뢰의 설문지는 주관식 문항이 포함되어 있습니다. 

게다가 단어가 아닌 문장 형태로 답변하는 문항이기 때문에 이 경우 비정형 데이터가 들어오게 됩니다. 

어떠한 데이터가 들어왔는지 한번 살펴보겠습니다.


NO

1000491

UID

C327041099_1-8-8-sgvkq7fc7y0my76x89les47cgh

START

2022/02/10-09:07:51

END

2022/02/10-09:10:48

TIME

0:02:57

Q3t1

자기관리의 끝판왕 만능엔터의 표본

Q4t1

어린나이에 솔로로 데뷔해서 지금까지 수많은 히트곡을 내면서 작사작곡까지 가능해서 아티스트로 인정도 받는 동시에 연기도 출중해서 여러 장르의 작품에서도 호평을 받고 있는데 그렇게 되기까지 엄청난 자기관리가 필요했을것 같은데 대단하다



약 5만개의 설문조사 응답 결과들 중 1개를 개인정보가 포함된 부분을 제거하고 가져왔습니다. 

다소 복잡해 보이는 형태의 데이터인데요, 앞쪽부터 차례대로 응답순서, 응답자 구분을 위한 유저아이디, 시작시간, 종료시간, 소요시간입니다. 여기까지는 정형 데이터이고 저희가 집중적으로 분석하고자 하는 부분은 마지막의 2문장. 즉, 비정형 데이터로 들어온 텍스트입니다. 


설문 내용은 각각 다음과 같습니다.

1. 아이유를 떠올렸을 때 생각나는 이미지는? 

2. 왜 그 이미지가 떠올랐는지 이유를 적어주세요. 


이 두 가지 설문에 대한 응답이 표에 있는 마지막 2문장입니다.


이러한 비정형 데이터를 그대로 분석할 수는 없기 때문에 다음 시간에는 비정형 데이터를 분석하기 위한 준비작업인 데이터 전처리에 대해 알아보도록 하겠습니다.


감사합니다.

 

0 0