히든그레이스가 말하다

히든그레이스의 생각을 담아내는 

일상 속 분석을 쉽고 재미있는 블로그로 만나보세요

히든그레이스가 말하다

히든그레이스의 생각을 담아내는 일상 속 분석을

쉽고 재미있는 블로그로 만나보세요

데이터 분석텍스트분석 : 아이유 설문조사 ② - 데이터 전처리

2022-05-09
조회수 987

🌈 데이터 전처리


출처. www.flaticon.com



1. 데이터 클리닝(Cleaning)

- 결측치 대체

- 잡음 데이터의 평활

- 이상치의 확인 및 제거

- 불일치 해결


2. 데이터 통합(Integration)

- 다양한 로그 파일 및 데이터베이스의 통합

- 일관성 있는 데이터 형태로 변환


2. 데이터 변환(Transformation)

- 정규화(normalization) ─ 집합화(Aggregation) ─ 요약(summarization) ─ 계층 생성


4. 데이터 축소(Reduction)

- 축소된 데이터도 원래 데이터와 같은 분석 결과를 얻을 수 있어야 함

- 컴퓨팅 시간 등 고려 위해 데이터 축소가 필요

- 방대한 로그 데이터의 경우 일정 시간 단위로 데이터 축소 필요


5. 데이터 이산화(Discretization)

- 데이터 축소의 일종이나 중요시 됨

- 수치 값을 속성 값으로 변환 : (예) [0~0.5) : Low, [0.5~1.0] : High

- 많은 알고리즘은 데이터 이산화 과정이 요구됨


6. 데이터 표현 특징 추출(Descriptive Characteristics Mining)

- 데이터를 더 잘 이해하기 위해 대표 특징을 이해하는 과정

- 데이터 축소의 일종이기도 함

- 실제 도메인을 고려한 방법이 많이 사용됨

예) 가속도 센서: 가속도 특성에 따른 연산 필요

예) GPS 센서: GPS 데이터 특성에 따른 연산 필요


🚀예시 : 실제데이터

NO

1000491

UID

C327041099_1-8-8-sgvkq7fc7y0my76x89les47cgh

START

2022/02/10-09:07:51

END

2022/02/10-09:10:48

TIME

0:02:57

Q3t1

자기관리의 끝판왕 만능엔터의 표본

Q4t1

어린나이에 솔로로 데뷔해서 지금까지 수많은 히트곡을 내면서 작사작곡까지 가능해서 아티스트로 인정도 받는 동시에 연기도 출중해서 여러 장르의 작품에서도 호평을 받고 있는데 그렇게 되기까지 엄청난 자기관리가 필요했을것 같은데 대단하다.


실제 분석 결과


결론 및 다음 내용 예고

이렇게 해서 설문조사 결과를 분석하기 위한 데이터 전처리를 마쳤습니다.

이제 이 데이터를 가지고 본격적으로 분석을 하게 됩니다.


다음 시간에는 이번 분석에서 사용하게 될 분석 기법들에 대해 알아보겠습니다.


지금까지 히든그레이스 데이터분석팀이었습니다.

감사합니다.



 

0 0