LDA 및 NMF와 같은 토픽 모델이 좋은 출발점으로 나타났지만, 의미있는 토픽을 만들기 위해서는 하이퍼 파라미터 조정에 상당한 노력이 필요하다.
사전 훈련된 모델은 단어와 문장의 보다 정확한 표현을 포함해야 하므로 특히 유용하다.
여러 차원감소 알고리즘 중에서 UMAP(Uniform Manifold Approximation and Projection)은 높은 차원의 로컬 구조의 상당부분을 낮은 차원으로 유지하므로 최고의 성능을 발휘한다.
또한 HDBSCAN을 사용하였다. UMAP이 저차원 공간에서도 많은 로컬 구조를 유지하기에 함께 잘 동작되는 밀도 기반 클러스터링 알고리즘이다.
참고 : https://towardsdatascience.com/topic-modeling-with-bert-779f7db187e6
UMAP에 대한 내용이 자세히 적혀있는 글이다.
기록해두고 천천히 살펴보아야겠다.
https://towardsdatascience.com/how-exactly-umap-works-13e3040e1668
https://data.korea.ac.kr/?p=4727
https://data-newbie.tistory.com/169
HDBSCAN에 대한 잘 설명된 글이다.
https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2019/07/15/HDBSCAN-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-(with-python).html