Latent Dirichlet Allocation, LDA

素人·2022년 1월 11일

Data

목록 보기

6/30

토픽 모델링 : 문서의 집합에서 토픽을 찾아내는 프로세스(문서의 주제를 알아내는 일)
★잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델링의 대표적인 알고리즘

LDA : 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정한다. 데이터가 주어지면 LDA는 문서가 생성되는 과정을 역추적한다.

[개요]

LDA를 수행할 때 문서 집합에서 토픽이 몇 개가 존재할지 가정하는 것은 사용자가 해야 할 일
a-모델의 성능에 영향을 주는 / b-사용자가 직접 선택하는 매개변수
: 하이퍼 파라미터(머신 러닝 용어)
→ 하이퍼 파라미터의 선택은 여러 실험을 통해 얻은 값일 수도 있고 우선 시도해보는 값일 수도 있음
빈도수 기반의 표현 방법인 BoW의 행렬 DTM 또는 TF-IDF 행렬로 입력
★단어의 순서는 신경 쓰지 않는다!
가정 : 문서가 작성 될 때 그 문서의 작성자는 이러한 생각을 했다, '작성하는 문서에 이러한 주제들을 넣고, 주제들을 표현하기 위해 이런 단어들을 쓸거야'
LDA는 토픽을 뽑아내기 위해서 문서 작성의 과정을 역으로 추적하는 역공학(reverse engneering)
수행과정
a) 알고리즘에게 토픽의 개수 k를 알려줌
: LDA는 토픽의 개수 k를 입력 받으면 전체 문서에 걸쳐 분포되어 있다고 가정
b) k개 중 하나의 토픽에 할당
: LDA는 모든 문서의 모든 단어에 대해 k개 중 하나의 토픽을 랜덤으로 할당, 이 과정
을 수행하고 나면 각 문서는 토픽을 가지며, 토픽은 단어 분포를 가지는 상태가 됨.
*랜덤으로 할당하였기 때문에 이 결과는 틀린 상태!
c) 모든 문서의 모든 단어에 대해 아래의 사항을 반복 진행(iterative)

매일 조금씩:)