LDA with Jensen-Shannon distance:
LDA has many uses:
- Understanding the different varieties topics in a corpus (obviously),
- Getting a better insight into the type of documents in a corpus (whether they are about news, wikipedia articles, business documents)
- Quantifying the most used / most important words in a corpus
- document similarity and recommendation
Latent Dirichlet Allocation (LDA):
An unsupervised generative model that assigns topic distributions to documents.
- high level์์, ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ๋ฌธ์๊ฐ ์ฌ๋ฌ๊ฐ์ ํ ํฝ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๋ค. ๊ทธ๋์ ๋ฌธ์๊ฐ์ ํ ํฝ์ด ์๋ก ๊ฒน์น ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค. โ๋ํ ํ ํฝ ๊ฐ์ ๊ณต์ ๋๋ ๋์ผํ ๋จ์ด๊ฐ ์์ ๊ฒ์ด๋ค
- ๊ฐ ๋ฌธ์์ ๋จ์ด๋ค์ ๋ฌธ์์ ํ ํฝ์ ์ํฅ์ ์ค๋ค. ํ ํฝ์ด ์ธ๋ถ์ ์ผ๋ก ์ ์๋ ํ์๋ ์์ง๋ง, "๋ช ๊ฐ์ ํ ํฝ"์ด ์๋์ง๋ ์ฌ์ ์ ์ ์๋์ด์ผ ํ๋ค.
The model generates toย latentย (hidden) variables :
(1) ๊ฐ ๋ฌธ์๋ค์ ํ ํฝ๋ค์ ๋ํ ๋ถํฌ
(2) ๊ฐ ํ ํฝ๋ค์ ๋จ์ด๋ค์ ๋ํ ๋ถํฌ
ํ์ต ํ, ๊ฐ ๋ฌธ์๋ค์ ๋ชจ๋ ํ ํฝ์ ๋ํด discrete ๋ถํฌ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ฉฐ, ๊ฐ ํ ํฝ๋ค์ ๋ชจ๋ ๋จ์ด์ ๋ํด discrete ๋ถํฌ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค.
Collapsed gibbs sampling
http://geference.blogspot.com/2011/11/blog-post_30.html