SELECT
position_id
, position
, SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(0)] AS responsibilities
, SPLIT(SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(1)], '우대사항')[safe_offset(0)] AS requirements
, SPLIT(SPLIT(SPLIT(SPLIT(jd, '주요업무')[safe_offset(1)], '자격요건')[safe_offset(1)], '우대사항')[safe_offset(1)], '혜택 및 복지')[safe_offset(0)] AS preference
, annual_from
, annual_to
, GENERATE_ARRAY(annual_from, annual_to, 1) AS target_annual
FROM wanted_data_challenge.wanted_position
WHERE annual_to < 3
어제 수업시간에 진행한 코드에서 WHERE절만 추가했다.
저연차의 기준은 신입부터 2년차까지로 설정했고, 총 20행의 결과가 나왔다.
주요업무의 리스트화까지는 1Week-1일차와 동일한 과정으로 진행하였다.
wordrank_extractor = KRWordRank(
min_count = 3,
max_length = 15,
verbose = True
)
beta = 0.85
max_iter = 10
keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter)
for word, r in sorted(keywords.items(), key = lambda x:x[1], reverse = True)[:30] :
print((word, r))
쿼리의 조건이 변경되었기 때문에 새로 불용어를 지정할 필요가 있다 생각되어
stopwords와 passwords를 제외하고 결과를 출력해보았다.
'데이터', '있는', '분이면', '분석', '있습니다.', '어떤', '필요한', '다양한', '위한’ 정도만 불용어로 지정하면 될것같다.
wordrank_extractor = KRWordRank(
min_count = 3,
max_length = 15,
verbose = True
)
beta = 0.85
max_iter = 10
keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter)
stopwords = {'데이터', '있는', '분이면', '분석', '있습니다.', '어떤', '필요한', '다양한', '위한'}
passwords = {word:score for word, score in sorted(keywords.items(), key=lambda x:-x[1])[:100] if not (word in stopwords)}
for word, r in sorted(passwords.items(), key = lambda x:x[1], reverse = True)[:30] :
print((word, r))
유의미한 결과가 도출된것같다.
수업과 동일한 방식으로 WordCloud 패키지를 인스톨하고, 한글깨짐방지 설정후에 WordCloud를 제작한다.
기존의 데이터가 388행이었던것에 비해 20행만 추출했기 때문에 데이터의 신뢰도가 낮다.
전체대상 공고의 자격요건에선 SQL, Cohort가 눈에 띄고, 저연차 대상공고에선 Cohort, metric, SQL이 눈에 띈다. 데이터 분석가에게 SQL과 Cohort 분석법은 필수로 보인다.
우대조건의 경우 전체대상 공고에선 Google Analytics, Tableau, R 등의 툴 사용능력이 우대조건으로, 저연차 대상공고에선 근무경험 혹은 이해능력과 툴 활용능력이 우대조건으로 중요해 보인다.
Colab ipynb 파일
https://drive.google.com/file/d/1R087lTLK-xap_h5r22mp1E64-rGAJks1/view?usp=sharing