BERTopic은 BERT 임베딩과 c-TF-IDF(클래스 기반 TF-IDF)를 활용하여 문서 집합에서 토픽을 효과적으로 추출하는 토픽 모델링 기술입니다. 기존의 LDA와 같은 모델을 뛰어넘는 성능으로 많은 주목을 받고 있습니다.
BERTopic의 핵심 알고리즘은 다음과 같은 세 단계로 구성됩니다.
문서 임베딩 (Document Embedding)
"paraphrase-MiniLM-L6-v2", 다국어 환경에서는 "paraphrase-multilingual-MiniLM-L12-v2" 모델이 기본으로 사용됩니다.문서 군집화 (Document Clustering)
토픽 표현 생성 (Topic Representation)
한국어 데이터 적용 Tip!
한국어 데이터를 다룰 때는 기본CountVectorizer대신 Mecab과 같은 형태소 분석기를 사용하고, SBERT 모델 역시 한국어 또는 다국어를 지원하는 모델로 교체해야 좋은 성능을 얻을 수 있습니다.
메모리 네트워크(MemN)는 이름 그대로 메모리라는 구성 요소를 도입하여 질의응답(Question Answering) 과제를 수행하는 딥러닝 모델입니다. 페이스북(현 메타)에서 제안한 babi QA 데이터셋을 통해 그 능력을 입증했습니다.

메모리 네트워크의 구조는 다음과 같습니다.
입력 (Input)
임베딩 (Embedding)
어텐션 메커니즘 (Attention Mechanism)
출력 생성 (Output Generation)