데이터 관련 직무를 중심으로 기업 정보를 활용한 기업 추천/비추천 여부 분류 모델 개발
“이 회사에 지원해도 될까?”
취춘생이 기업에 대한 정보 탐색에 소요되는 시간을 절약해주고자
채용 사이트별 정보, 리뷰, 평점 등 요소를 종합적으로 고려하여 기업 추천 여부를 알려주는 프로그램


Selenium - 웹 브라우저 동작
Beautifulsoup - 웹 페이지 데이터 추출
절차
커리어 매칭 포털 [사람인] 웹 사이트 필터 설정
채용공고별 기업 데이터 수집 -> 수집 데이터 중 “기업명” 활용
🔽
[NICE 기업정보], 취업 SNS [잡플래닛]에서
“기업명”을 각 사이트에 검색하여 목표 데이터 수집


수집된 데이터 기반 중복 및 결측 데이터 처리 (NaN, 0)
↓
분석 가능한 형태로 데이터 가공 (데이터 column 분류, 자료형 변환 등)
↓
최종 데이터 셋 선정





채용 중인 174개의 회사 중 중소기업의 수가 압도적으로 많으며,기타의 경우 주식회사, 외부감사법인, 외국인 투자기업 등 중소/중견/대기업 분류가 어려운 회사를 따로 모은 column.
별점은 주로 2~3점대에 몰려있음을 확인할 수 있다.




추천 라벨링 단계 전 각 컬럼별 중요도를 산정해서 가중치 컬럼을 새로 생성해주었다.
사원수의 경우 회사의 안정성 지표로 중요하나 기업구분과 상관성이 크기 때문에 다소 낮은 가중치 부여헸으며,
이직률, 별점의 경우 실제 재직자의 만족도 측면에서 중요하다고 생각하여 비교적 높은 가중치를 주었다.

