Topic Modeling

이승준·2024년 8월 9일

문서들에 잠재된 공통의 주제들을 추출
문서들이 가지는 주요 주제들의 분포와 의미를 제공
각 문장들의 주제가 될 수 있는 단어들을 집합으로 만들 수 있다.

LDA (Latent Dirichlet Allocation)

Document Term Matrix 에서 문서 별 토픽 분포와 토픽 별 단어 분포를 찾는다
- 문서 별 토픽 분포 : 어떤 토픽에 대한 한 문서에서의 구성비
- 토픽 별 단어 분포 : 토픽 내 어떤 단어의 구성비
베이즈 추론을 통해 잠재된 문서 내 토픽 분포와 토픽 별 단어 분포를
추론
LDA의 베이즈 추론의 사전 확률 분포로 사용되는 것이 디리클레 분포
=> 사전 확률을 이용해 사후 확률을 업데이트

LDA 구성 요소와 작동 방식

각 문서에서 같이 자주 등장하는 단어들을 분석한다
=> 이들은 같은 주제를 이룰 확률이 높다
위에서 진행한 그룹화를 바탕으로 토픽 분포 분석

인하대학교 컴퓨터공학과

이전 포스트

데이터 볼륨

다음 포스트

Tokenization

0개의 댓글