뮤지컬 추천 사이트4(FINAL_PROJECT)

ppippi·2023년 11월 9일
0
post-thumbnail

c. 유사도를 기준으로 그룹별로 범주화

  • 선택한 단어(장르)와 유사도가 높은 단어들은 하나의 장르로 특정
  • 단어(장르) 개수 설정 (10개)

이전에 model학습한(벡터화한)csv파일을 데이터프레임으로 로드 및 저장한 학습모델 불러온 후 다시 진행 시작!!

  • Vector 형태로 변환한 단어 리스트 조회
model.wv.key_to_index


  • 단어 리스트를 조회하여 종류 10가지 선정하기 (완료)
    목적 : 선택한 단어(장르)와 유사도가 높은 단어들은 하나의 장르로 특정
# "tokenized_data" 열에서 품사별로 분리된 단어 리스트를 추출
tokenized_data = vector_data['tokenized_data'].apply(eval)
tokenized_data

-> 빈도수 0이 가장 빈도수 높은 단어

# 선택한 장르 (예: "사랑")와 유사한 단어를 찾음
selected_genre = "사랑"
similar_words = model.wv.most_similar(selected_genre, topn=100)
similar_words

[최종선정된 종류 10가지]

  • 빈도수가 높은 단어 10개를 장르로 설정
    '문제': 3
    '학습': 4
    '언어': 125
    '역사': 194
    '과학': 196
    '사랑': 250
    '예술': 266
    '기술': 195
    '문학': 71
    '고전': 415

위 이미지처럼 유사도가 높은 100개의 단어를 하나의 종류로 통합
즉, 사랑과 유사한 단어를 모두 사랑으로 취급하여 사이트에서 사랑을 태그로 사용할 시 해당하는 작품이 조회되도록하기 위한 것이다.


이후 뮤지컬데이터를 사용하여 변경할 예정이다.

branch: 0.0.3/work2vec에 내용에 해당하는 코드파일이 포함되어있으니 참고바랍니다.


tmi: branch명을 word2vec로 한다는걸 너무 자연스럼게 work2vec로 하고 너무 많은일들을 해서 그냥..흐린눈하기로 했다..^^ 다음부터는 정신차리고 제대로 생성하기!!


프로젝트 관련 코드는 아래의 주소에서 확인할 수 있습니다
i-Five

0개의 댓글