[데이터 분석]텍스트분석 : 아이유 설문조사 ③

2022-05-16
조회수 73

안녕하세요?

히든그레이스 데이터분석팀입니다.

이번 시간부터는 전처리를 마친 텍스트를 분석하는 과정을 보여드리겠습니다.

한국어는 언어의 특성상 분석이 쉽지 않습니다.

예를 들어 영어와 같은 언어는 몇몇 경우를 제외하고 대부분 띄어쓰기만으로 의미의 최소 단위인 형태소 분리가 가능합니다.

그러나 한국어는 어근에 접사가 결합하여 의미가 변화하는 교착어이므로 띄어쓰기로는 이들을 구분할 수가 없기 때문에 분석이 어렵고 결과도 완전하지 못한 경우가 많습니다.


그렇기 때문에 한국어 자연어 처리를 위한 다양한 방법들이 끊임없이 연구되고 있습니다.

그 중에서 이번에 저희가 사용할 패키지는 KoNLPy(Korean Natural Language Processing in Python)의 OKT (Open Korean Text)를 사용하려고 합니다.

OKT는 트위터 형태소 분석을 위해 개발된 것으로 소셜 분석을 대상으로 했기 때문에 비형식어나 신조어 등을 잘 찾아내고 처리 속도가 빠른 장점이 있으며, 이러한 특징 때문에 저희가 분석하려고 하는 개방형 설문조사 데이터에 적합하다고 할 수 있겠습니다.


그러면 OKT에서 제공하는 함수들을 간단하게 설명하도록 하겠습니다.

함수

기능

okt.morphs()

텍스트를 형태소 단위로 분리

okt.nouns()

명사만 추출

okt.phrases()

어절 추출

okt.pos()

품사 태깅


이 중에서 분석에 사용할 함수는 okt.pos() 이며 옵션으로 norm과 stem을 사용하여 정규화 및 어근을 추출하도록 하겠습니다.

‘아이유 설문조사를 분석하겠습니다’ 라는 예시 문장에 위 함수를 적용한 결과는 아래와 같습니다.

okt.pos('아이유 설문조사를 분석하겠습니다', norm=True, stem=True)

[('아이유', 'Noun'),
('설문조사', 'Noun'),
('를', 'Josa'),
('분석', 'Noun'),
('하다', 'Verb')]


다음 시간에는 OKT를 적용한 결과에서 불필요한 부분을 제거하는 것을 보여드리겠습니다.





 

0 0