토픽모델링 (LDA)

Han Hanju·2021년 9월 29일
0
post-thumbnail

토픽모델링 이란?

  • 문서집합에서 토픽을 찾아네는 프로세스
  • 검색엔진과 같이 문서의 주제를 알아내는 곳에서 주로 사용.
  • LDA(Latent Dirichlet Allocation)
  • 문서들은 토픽들의 혼합으로 구성
  • 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정
  • LDA는 문서가 생성되던 과정을 역추적

토픽추출 방법

1) 하이퍼파라미터: 토픽의 수
2) 문서 내 토픽 분포


  • 3) 토픽 내 단어 분포

  • 4) 문서는 여러개의 토픽으로 구성되어있으며, 토픽은 여러개의 단어로 구성되어있다는 가정

5) 가장 좋은 토픽의 수

  • 보통 유사도가 가장 낮을때의 토픽의 수를 선택

Reference

https://www.youtube.com/watch?v=noWKlkdcY6A
https://wikidocs.net/30708

profile
Data Analytics Engineer

0개의 댓글