토픽 모델링은 문서 집합(corpus)에서 주제(topic)을 찾기 위한 비지도 학습(unsupervised learning) 분류 방법이다. 일반적으로 사람은 글을 읽으며 글의 주제를 찾아 낸다. 이와 비슷하게, 컴퓨터도 텍스트 본문에 담겨 있는 의미 구조를 발견하기 위해 텍스트 마이닝기법을 활용하여 글의 주제를 찾아낸다.
토픽 모델링은 문서의 집합에서 토픽을 찾아내는 프로세스를 말한다. 이는 검색 엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용된다. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델링의 대표적인 알고리즘이다.
LDA는 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정한다. 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적한다.
= Latent Semantic Indexing, LSI
LSA 정확히는 토픽 모델링을 위해 최적화 된 알고리즘은 아니지만, 토픽 모델링이라는 분야에 아이디어를 제공한 알고리즘이다. LDA는 LSA의 단점을 개선하여 탄생한 알고리즘으로 토픽 모델링에 보다 적합한 알고리즘이다.
Bag of Words(BoW)에 기반한 DTM이나 TF-IDF는 기본적으로 단어의 빈도 수를 이용한 수치화 방법이기 때문에 단어의 의미를 고려하지 못한다는 단점이 있었다. (이는 토픽 모델링 관점에서 단어의 토픽을 고려하지 못한다고도 할 수 있다.)
이를 위한 대안으로 DTM의 잠재된(Latent) 의미를 이끌어내는 방법으로 잠재 의미 분석(Latent Semantic Analysis, LSA)이라는 방법을 활용한다. 잠재 의미 분석(Latent Semantic Indexing, LSI)이라고 부르기도 한다. 이 방법은 선형대수학의 특이값 분해(Singular Value Decomposition, SVD)를 이해가 필요하다.