[데이터 분석][HR Analytics] 퇴직 가능자 예측 머신러닝 모델 실습 ① - Intro

2021-11-08
조회수 783

https://www.freepik.com/free-vector/recruiting-professionals-studying-candidate-profiles_5562385.htm#page=1&query=hr&position=1


HR Analytics

HR(Human Resource)은 경영에서 중요한 요소 중 하나입니다. 인사가 만사다 라는 말이 만연할 정도로 HR, 인사에 대한 다양한 접근 방법, 기술이 있습니다. 기업이 존재하는 한, HR에 대한 연구, 발전은 계속 이어질 것으로 보이는데요. 이와 관련해서 HR Analytics 분야에 대해 시리즈로 다뤄보려고 합니다.


비전

히든그레이스는 데이터 분석 사회적 기업으로서 특별히 장애인 채용/인사 플랫폼 개발에 비전이 있습니다. 현재 히든그레이스 데이터분석팀은 한 대기업의 HR 분석(Analysis) 프로젝트를 진행하고 있는데요. 비전과 프로젝트 연속선 상에서 포스팅 주제를 선정했고, 특별히 인공지능, 머신러닝이 접목된 분석 방향을 코드부터 아주 디테일하게 다뤄보고자 합니다. 시리즈로 한 프로젝트를 A to Z 전체를 연재할 예정이니 기대해주세요.


인공지능의 화려한 등장

우리나라는 알파고의 화려한 등장부터 인공지능, 머신러닝, 딥러닝에 대한 관심이 높아졌습니다. 인공지능은 다양한 산업과 분야에 적용되고 있는데요. HR 영역에서도 인공지능의 역할이 크게 대두되고 있습니다. 인공지능이 어떤 영역에 접목되든 그 산업의 도메인 지식과 인공지능 기술이 조화롭게 아우러져야 큰 시너지 효과를 보이는데요. 두 분야 모두 전문적인 지식과 능력을 가지고 있는 사람이 많이 없겠죠. 그래서 협업이 중요하고 두 영역의 전문가들의 활발한 공유 & 스스로 학습 또한 너무나도 필요합니다.

http://m.blog.yes24.com/seyoh/post/8482843


지금 연재하려는 포스팅은 아무래도 머신러닝 기술 쪽에 좀더 무게가 실려있고, HR 데이터를 활용하는 측면에서 다루다 보니 HR 도메인 영역은 약할 수 있습니다. 이 글을 보시는 분들이 이 부족한 부분을 댓글이나 쪽지로 메꿔주신다면 큰 시너지 효과를 낼 수 있지 않을까 기대해 봅니다.


퇴직 가능자 예측 모델

HR 머신러닝 예측 모델 분석. 처음 시작할 데이터는 퇴직 가능자를 예측할 수 있는 가벼운 데이터부터 시작하려고 합니다.

retirement_prediction.csv 

이 데이터는 https://github.com/seongboki/hr-analytics 깃허브에 공유돼 있는 곳에서 가져왔습니다. 퇴직자 예측 모델을 아주 잘 분석해 놓은 내용이 있더라구요. 기본 지식이 있는 전문가가 보면 금방 이해가 되고, 적용할만한 인사이트를 찾을 수 있겠지만 머신러닝 입문자나 처음 접하는 사람들이 보면 어려워 보일수도 있어서 이 데이터를 이용해서 저만의 방법으로 디테일하게 코드 하나 하나 소개하고 보여드리면서 퇴직 가능자 예측 모델을 만들어보려 합니다.

https://m.hankookilbo.com/News/Read/201801101617763036


우선 문제부터 정의하고 가야합니다. 문제를 정의한다는 말이 여러 의미로 해석될 수 있는데 머신러닝에서 문제를 정의한다는 의미는 이 문제가 지도학습인지, 비지도 학습인지, 지도학습이라면 분류인지 회귀인지 등의 문제 접근 방식을 의미하기도 합니다.


문제를 정의하기 위해서는 데이터를 봐서 데이터 안에 정답(label)이 있으면 지도학습, 없으면 비지도학습이나 강화학습으로 구분할 수 있습니다. 데이터를 살펴보면 left라는 컬럼으로 정답 즉, 퇴직 여부가 존재하네요. 그 다음은 이 정답 데이터가 연속형 데이터인지 범주형 데이터인지 확인해야 하는데 0,1값으로 범주형 데이터 입니다. 그럼, 이진 분류 문제로 접근할 수 있습니다.

https://post.naver.com/viewer/postView.nhn?volumeNo=16425037&memberNo=36733075


일단 결론부터 적어봤는데요. 분류니 회귀니 지도학습, 비지도학습에 대한 자세한 설명이 없었네요. 그럼 다음 포스팅 때 실제 데이터도 보여드리면서 위에서 언급한 개념에 대해 자세히 설명하는 시간을 가져 보겠습니다.




1 0