머신러닝 프로젝트 1 - (1)

Jungmin·2023년 1월 13일

머신러닝

목록 보기
9/10

💻프로젝트 주제: 기업 추천 길라잡이

⏹ 개요

데이터 관련 직무를 중심으로 기업 정보를 활용한 기업 추천/비추천 여부 분류 모델 개발

“이 회사에 지원해도 될까?”

취춘생이 기업에 대한 정보 탐색에 소요되는 시간을 절약해주고자
채용 사이트별 정보, 리뷰, 평점 등 요소를 종합적으로 고려하여 기업 추천 여부를 알려주는 프로그램

⏹ 데이터

◼ 데이터 출처 및 선정 이유

◼ 데이터 수집 프로세스

  • Selenium - 웹 브라우저 동작

  • Beautifulsoup - 웹 페이지 데이터 추출

  • 절차
    커리어 매칭 포털 [사람인] 웹 사이트 필터 설정
    채용공고별 기업 데이터 수집 -> 수집 데이터 중 “기업명” 활용
    🔽
    [NICE 기업정보], 취업 SNS [잡플래닛]에서
    “기업명”을 각 사이트에 검색하여 목표 데이터 수집

⏹ 전처리 절차

수집된 데이터 기반 중복 및 결측 데이터 처리 (NaN, 0)

분석 가능한 형태로 데이터 가공 (데이터 column 분류, 자료형 변환 등)

최종 데이터 셋 선정

◼ 중복 및 결측치 처리

◼ 분석 가능 형태로 가공


⏹ EDA

채용 중인 174개의 회사 중 중소기업의 수가 압도적으로 많으며,기타의 경우 주식회사, 외부감사법인, 외국인 투자기업 등 중소/중견/대기업 분류가 어려운 회사를 따로 모은 column.
별점은 주로 2~3점대에 몰려있음을 확인할 수 있다. 

추천 라벨링 단계 전 각 컬럼별 중요도를 산정해서 가중치 컬럼을 새로 생성해주었다. 
사원수의 경우 회사의 안정성 지표로 중요하나 기업구분과 상관성이 크기 때문에 다소 낮은 가중치 부여헸으며, 
이직률, 별점의 경우 실제 재직자의 만족도 측면에서 중요하다고 생각하여 비교적 높은 가중치를 주었다. 

profile
데이터분석 스터디노트🧐✍️

0개의 댓글