[원티드 프리온보딩 데이터 분석 챌린지] 1주차 1일 homework

김경남·2023년 3월 7일
0

프리온보딩

목록 보기
2/2
post-thumbnail

🌱 저연차 대상 공고로 WordCloud 만들기 + EDA report

1. SQL Query 작성

SELECT
position_id  
, position
  , SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(0)] AS responsibilities 
  , SPLIT(SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(1)], '우대사항')[safe_offset(0)] AS requirements
  , SPLIT(SPLIT(SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(1)], '우대사항')[safe_offset(1)], '혜택 및 복지')[safe_offset(0)] AS preference
  , annual_from 
  , annual_to  
  , GENERATE_ARRAY(annual_from, annual_to, 1) AS target_annual 
  FROM wanted_data_challenge.wanted_position
  WHERE annual_to < 3

어제 수업시간에 진행한 코드에서 WHERE절만 추가했다.

저연차의 기준은 신입부터 2년차까지로 설정했고, 총 20행의 결과가 나왔다.

2. Colab

주요업무의 리스트화까지는 1Week-1일차와 동일한 과정으로 진행하였다.

wordrank_extractor = KRWordRank(
    min_count = 3, 
    max_length = 15,
    verbose = True
)

beta = 0.85  
max_iter = 10

keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter) 

for word, r in sorted(keywords.items(), key = lambda x:x[1], reverse = True)[:30] : 
  print((word, r))

쿼리의 조건이 변경되었기 때문에 새로 불용어를 지정할 필요가 있다 생각되어

stopwords와 passwords를 제외하고 결과를 출력해보았다.

'데이터', '있는', '분이면', '분석', '있습니다.', '어떤', '필요한', '다양한', '위한’ 정도만 불용어로 지정하면 될것같다.

wordrank_extractor = KRWordRank(
    min_count = 3, 
    max_length = 15, 
    verbose = True
)

beta = 0.85  
max_iter = 10

keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter) 

stopwords = {'데이터', '있는', '분이면', '분석', '있습니다.', '어떤', '필요한', '다양한', '위한'}  
passwords = {word:score for word, score in sorted(keywords.items(), key=lambda x:-x[1])[:100] if not (word in stopwords)}  
for word, r in sorted(passwords.items(), key = lambda x:x[1], reverse = True)[:30] : 
  print((word, r))

유의미한 결과가 도출된것같다.

3. WordCloud

수업과 동일한 방식으로 WordCloud 패키지를 인스톨하고, 한글깨짐방지 설정후에 WordCloud를 제작한다.

  • 주요업무

  • 자격요건

  • 우대조건

  • 전체 대상 공고 기반 WordCloud

  • 저연차(신입~2년차)대상 공고 기반 WordCloud

4. 결론

  • 기존의 데이터가 388행이었던것에 비해 20행만 추출했기 때문에 데이터의 신뢰도가 낮다.

  • 전체대상 공고의 자격요건에선 SQL, Cohort가 눈에 띄고, 저연차 대상공고에선 Cohort, metric, SQL이 눈에 띈다. 데이터 분석가에게 SQL과 Cohort 분석법은 필수로 보인다.

  • 우대조건의 경우 전체대상 공고에선 Google Analytics, Tableau, R 등의 툴 사용능력이 우대조건으로, 저연차 대상공고에선 근무경험 혹은 이해능력과 툴 활용능력이 우대조건으로 중요해 보인다.

Colab ipynb 파일

https://drive.google.com/file/d/1R087lTLK-xap_h5r22mp1E64-rGAJks1/view?usp=sharing

profile
초보 데이터분석가(희망)

0개의 댓글