토픽모델링 이란?
- 문서집합에서 토픽을 찾아네는 프로세스
- 검색엔진과 같이 문서의 주제를 알아내는 곳에서 주로 사용.
- LDA(Latent Dirichlet Allocation)
- 문서들은 토픽들의 혼합으로 구성
- 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정
- LDA는 문서가 생성되던 과정을 역추적
토픽추출 방법
1) 하이퍼파라미터: 토픽의 수
2) 문서 내 토픽 분포
3) 토픽 내 단어 분포
4) 문서는 여러개의 토픽으로 구성되어있으며, 토픽은 여러개의 단어로 구성되어있다는 가정
5) 가장 좋은 토픽의 수
- 보통 유사도가 가장 낮을때의 토픽의 수를 선택
Reference
https://www.youtube.com/watch?v=noWKlkdcY6A
https://wikidocs.net/30708