히든그레이스가 말하다

히든그레이스의 생각을 담아내는 

일상 속 분석을 쉽고 재미있는 블로그로 만나보세요

히든그레이스가 말하다

히든그레이스의 생각을 담아내는 일상 속 분석을

쉽고 재미있는 블로그로 만나보세요

데이터 분석텍스트분석 : 아이유 설문조사 ④

2022-05-25
조회수 448

출처. https://pixabay.com/


안녕하세요.

히든그레이스 데이터분석팀입니다. 😆


지난 포스팅에서 OKT (Open Korean Text)의 함수들에 대해서 알아보았습니다.

이번 포스팅에서는 실제 데이터에 함수들을 적용한 결과와 그 결과에서 불필요한 부분을 제거해 나가는 과정을 보여드리겠습니다.


아래의 표는 저희가 분석해야 할 원본 데이터의 제일 처음 부분입니다.

 시리즈 첫 번째 포스팅에서 보여드렸던 것처럼 실제 데이터는 좀 더 복잡한 형태입니다.

그중에서 저희가 이번 시간에 분석할 내용에 대한 컬럼만 가져왔습니다.


생각난 이미지

생각난 이유

1

이쁘다

귀엽다

2

상큼

통통튀는매력

3

노래를 잘함

발매하는 곡마다 잘됨

4

국내 원탑

10년간 탑이니까

5

깜찍한

귀여운

6

상큼함

목소리와 이미지가 투명해서

7

노래 잘하는 가수

노래를 잘 불러서

                        

이 데이터에 okt.pos(text, norm=True, stem=True) 함수를 적용한 뒤 tag부분을 제외하고 단어만 뽑아내면 다음과 같은 형태로 변합니다. 


생각난 이미지

생각난 이유

1

이쁘다

귀엽다

2

상큼

통통 튀다 매력

3

노래 를 잘 하다

발매 하다 곡 마다 잘 되다

4

국내 원탑

10년 간 탑 이니까

5

깜찍하다

귀엽다

6

상큼하다

목소리 와 이미지 가 투명하다

7

노래 잘 하는 가수

노래 를 잘 부르다

                        


결과를 살펴보면 단어들이 기본형으로 바뀌었고 띄어쓰기 등 맞춤법도 교정된 것을 볼 수 있습니다.

또한 품사들이 모두 분리되었는데 ‘를’, ‘와’ 등의 조사들도 분리되어 나와 있습니다.

이러한 조사들은 분석에 불필요하므로 제거하도록 하겠습니다.


위의 결과에서 ‘Josa’ 태그가 붙은 품사들을 모두 제거한 결과는 다음과 같습니다.

원본 데이터와 비교해 보면 텍스트 분석에 적합한 형태로 데이터가 점점 정제되는 것을 확인할 수 있습니다.


생각난 이미지

생각난 이유

1

이쁘다

귀엽다

2

상큼

통통 튀다 매력

3

노래 잘 하다

발매 하다 곡 마다 잘 되다

4

국내 원탑

10년 탑

5

깜찍하다

귀엽다

6

상큼하다

목소리 이미지 투명하다

7

노래 잘 하다 가수

노래 잘 부르다

                        

그런데 ‘하다’, ‘되다’ 와 같은 단어도 제거하고 싶지만 이 단어들은 동사이기 때문에 태그를 통해 일괄적으로 제거하면 다른 모든 동사들도 함께 제거되므로 다른 방법을 사용해야 합니다. 그리고 그 밖에 분석에 불필요한 단어들을 지정해서 제거할 수 있다면 더 정확한 분석이 가능할 것입니다.


다음 포스팅에서는 불용어 사전을 통해 원하는 특정 단어들만 골라서 제거하는 방법을 보여드리겠습니다.

0 0