BERT(Bidirectional Encoder Representations from Transformers) 를 통해 맥락적 단어-문장 벡터 표현을 생성
기존 토픽 모델링 기법은 클러스터의 중심(centroid)에 근접한 단어를 클러스터를 대표하는 토픽으로 가정
BERTopic : 토픽 표현을 생성하기 위한 클러스터링 기법 + TF-IDF 의 class 기반 transformer
차원의 저주 (the curse of dimensionality) 를 극복하기 위해 임베딩 차원 감소
UMAP 사용하여 임베딩 차원 감소
임베딩 차원 감소 후 HDBSCAN 을 이용해 클러스터링
토픽 표현은 각 클러스터 문서를 기반으로 모델링
문서를 단순히 연결하여 클러스터 내 모든 문서를 하나의 문서로 취급
c-TF-IDF 표현을 가장 유사한 토픽과 병합(merge)