c. 유사도를 기준으로 그룹별로 범주화
이전에 model학습한(벡터화한)csv파일을 데이터프레임으로 로드 및 저장한 학습모델 불러온 후 다시 진행 시작!!
model.wv.key_to_index
# "tokenized_data" 열에서 품사별로 분리된 단어 리스트를 추출
tokenized_data = vector_data['tokenized_data'].apply(eval)
tokenized_data
-> 빈도수 0이 가장 빈도수 높은 단어
# 선택한 장르 (예: "사랑")와 유사한 단어를 찾음
selected_genre = "사랑"
similar_words = model.wv.most_similar(selected_genre, topn=100)
similar_words
[최종선정된 종류 10가지]
위 이미지처럼 유사도가 높은 100개의 단어를 하나의 종류로 통합
즉, 사랑과 유사한 단어를 모두 사랑으로 취급하여 사이트에서 사랑을 태그로 사용할 시 해당하는 작품이 조회되도록하기 위한 것이다.
이후 뮤지컬데이터를 사용하여 변경할 예정이다.
branch: 0.0.3/work2vec에 내용에 해당하는 코드파일이 포함되어있으니 참고바랍니다.
tmi: branch명을 word2vec로 한다는걸 너무 자연스럼게 work2vec로 하고 너무 많은일들을 해서 그냥..흐린눈하기로 했다..^^ 다음부터는 정신차리고 제대로 생성하기!!
프로젝트 관련 코드는 아래의 주소에서 확인할 수 있습니다
i-Five