'온라인 행동정보로 상품 추천' 프로젝트에 '검색어'를 feature로 추가하기 위해서 워드 임베딩을 해야했다. 다음은 워드 임베딩에 이르기까지의 과정이다.
기존에 진행했던 것과 같이 구매로 이어진 세션에서 검색어가 있는 경우만 추출
데이터 수 : 22239->12627
한글만 남기고 모두 삭제 55개의 세션 삭제됨 (12627->12572)
https://wikidocs.net/92961 #다양한 한국어 전처리 패키지
!pip install soynlp
word_score_table["반포한강"].cohesion_forward
#0.19841268168224552
word_score_table["반포한강공원"].cohesion_forward
#0.37891487632839754
word_score_table["디스플레"].right_branching_entropy
#-0.0 #다음에 '이'가 올것이 분명하기 때문
word_score_table["디스플레이"].right_branching_entropy
#3.1400392861792916
#단어가 완성되면 값이 증가하는 이유는 '디스플레이'란 단어 다음에
#조사나 다른 단어가 올 경우가 무수하기 때문
https://wikidocs.net/69141 #이 사이트의 코드를 보고 skip_gram 구현함