24.04.08 TIL

예진·2024년 4월 8일
0

TIL

목록 보기
64/68


EDA 하기 위해 전처리 재시도.
라벨링은 결국 성능 좋은 코드만 따로 돌렸고..

한 개도 안나오던 'Data preprocessing'은 76개를 라벨링하는데 성공했다.
랜덤하게 추출해서 Job Description 살펴보니,
전처리보다 정제, cleaning으로 들어가 있어서 안나오는 경우가 많았다.
복잡하게 하자면 더 해야겠지만 그냥 EDA할거니까 대충하자,,

중간에 미친 노가다 한 번 하고...
스킬 라벨링, 연봉, 도메인, 직업명 등 전처리 마무리했다.



간단하게 도메인별 평균 연봉, 채용공고 수, 요구 스킬 분석을 해보았는데
큰 차이가 보이진 않았다.

규모별 연봉, 요구 스킬, 직업명 별 연봉 등을 봐도 큰 차이가 없는데
아무래도 데이터 사이즈가 너무 작아서 그런듯

결국 크롤링 스크랩핑 등 데이터 늘리지 않으면 통계분석도 별로 눈에 띄지 않는다.
그냥 내가 통계 낼 줄 몰라서 그런 것 같기도 하고,,
잘 가고 있는 거 맞겠지,,,,

profile
Data Analysis / 맨 땅에 헤딩

0개의 댓글