히든그레이스가 말하다

히든그레이스의 생각을 담아내는 

일상 속 분석을 쉽고 재미있는 블로그로 만나보세요

히든그레이스가 말하다

히든그레이스의 생각을 담아내는 일상 속 분석을

쉽고 재미있는 블로그로 만나보세요

데이터 분석텍스트분석 : 아이유 설문조사 ⑥

2022-06-10
조회수 118

안녕하세요?

히든그레이스 데이터분석팀입니다. 😆


지난 포스팅까지의 내용으로 단어 단위의 분석을 알아보았습니다.

단답형 응답의 경우는 지금까지의 과정을 통해서 분석을 거의 완료할 수 있습니다.


그런데 저희가 분석해야 할 응답에는 단답형 외에 문장 형태로 된 부분도 있습니다.

문장형 응답을 분석하기 위해서는 단어들 간의 순서와 조합을 고려해야 합니다.

출처 : https://geekinsider.com/book-review-cuckoos-calling-robert-galbraith/


해리 포터 시리즈의 작가 J. K. 롤링은 2013년에 Robert Galbraith라는 가명으로 The Cuckoo’s Calling이라는 추리 소설을 발표했습니다.

자신의 명성을 제외하고 순수하게 작품성만으로 평가받기를 원했기 때문입니다.

그런데 영국의 선데이 타임스는 두 명의 전문가들에게 텍스트 분석을 의뢰하여 The Cuckoo’s Calling의 저자가 J. K. 롤링임을 밝혀냈습니다.

그 전문가들은 다른 4권의 추리 소설과 The Cuckoo’s Calling의 유사성을 비교 분석하였는데 그중 J. K. 롤링의 책과 가장 유사성이 높게 나타났다고 합니다.

그리고 여기에 사용된 분석 방법 중 하나가 N-gram입니다.

https://www.nationalgeographic.com/science/article/how-forensic-linguistics-outed-j-k-rowling-not-to-mention-james-madison-barack-obama-and-the-rest-of-us


출처 : https://medium.com/kaianalytics/5-text-analysis-nlp-buzzwords-for-market-research-4c5aa0d063df


위 그림의 예시처럼 N-gram은 N개의 연속적인 단어의 묶음입니다.

이를 이용해서 단어들의 순서와 조합을 분석할 수 있으며 The Cuckoo’s Calling의 사례처럼 문서 간의 유사성을 판단하는 데 사용할 수도 있습니다.


저희는 N-gram으로 문장형 응답들의 빈도를 확인할 생각입니다. 앞선 과정에서 맞춤법 교정과 기본형 전환을 했던 것도 N-gram 분석에 필요한 과정 중 하나였습니다.


사이킷런의 feature_extraction.text 서브 패키지에서 제공하는 CountVectorizer 클래스의 인수들 중 ngram_range를 조정하면 N-gram 분석이 가능합니다.

나머지 과정은 단어 분석에서 사용했던 것과 같은 방법으로 빈도수를 카운트하면 됩니다.


성별 분류에 따른 2, 3-gram 빈도의 시각화 결과를 예시로 보여드리겠습니다.

이렇게 해서 복잡한 분석들은 거의 마무리되었습니다.

다음 포스팅에서는 지금까지의 결과를 분류 및 정리하도록 하겠습니다.

0 0