
PromptTopic
Why LLM?
- 전통적인 모델과 달리 LLM을 사용하면 hyper-parameter tuning에 많은 시간을 할애하지 않아도 됨
- 기존 토픽 모델보다 좋은 성능
오늘은 WSM, PBM 2가지 방법 중 Short Text에서 좋은 PBM 방법에 대해 정리!

LLM을 사용하여 입력 텍스트의 토픽을 생성하는 과정

위 Figure는 Chat GPT에서 사용하는 프롬프트로, 보라색 블록은 사용자의 input, 연두색 블록은 샘플 응답(예시), 빨간색 글씨는 GPT의 응답을 의미
즉, N demonstrations는 GPT에게 응답 예시를 보여주는 것이고 최적의 예시 개수(N 값)은 2,4,6,8의 경우로 테스트 했지만 모델의 크기가 큰(파라미터 수가 많은) GPT의 경우, N값 변화에 대해 덜 민감한 결과를 보인다고 함!
LLM은 종종 문서에 대해 중복된 토픽을 생성함(예를들어- LLM이 생성한 토픽이 ‘film’, ‘actor’인 경우, ‘film’으로 합쳐질 수 있음)
위와 같은 중복 의미 토픽을 합치는 과정을 Collapse topics이라고 함
(두 가지 방법 중 PBM이 Short Text에서 좋다는 결과가 있기 때문에 PBM 방법 정리)
(만약 데이터 셋 크기가 너무 커서 unique topic의 수도 커지고, 이로인해 작성 가능한 프롬프트 최대 토큰 수를 초과하는 경우라면 사이즈 M의 sliding window를 사용하여 해결)
Baseline 모델(LDA, NMF, CTM, Cluster-Anlaysis, BERTopic)과 PromptTopic 모델 비교
BERTopic과의 성능 비교 (Accuracy)
- 만약, 사용한 모델이 토픽 모델링을 잘 수행했다면, Intruder를 찾기 수월할 것!
즉, 토픽 간 단어의 의미가 얼마나 잘 구분되는지 판단함으로써 모델의 토픽 모델링 품질 평가
- word intrusion task는 비용 소모가 크지만, 굳이 이 task를 하는 이유는 NPMI만으로 토픽 품질을 평가하기엔 단지 NPMI가 낮다는 게 토픽 퀄리티 낮음을 의미하지 않기 때문(약한 상관관계)
| Is automated topic model evaluation broken? the incoherence of coherence. A. Hoyle,2021
결과 1, 결과 2를 보면 전체적으로 기본 모델보다 PromptTopic 모델이 더 좋은 성능을 보이긴 하나, 데이터 셋에 따라 상이한 결과를 보임
데이터의 특징(Long? Short? 등) 또는 성능 VS 소모되는 리소스(시간, 비용 등) 우선순위를 고려하여 Baseline 모델 대신 PromptTopic를 적용할 필요가 있다.
추가로, Twitter Tweet 데이터 셋에서 PromptTopic-PBM 모델이 좋은 결과를 보임!
일반적으로 토픽 모델에서는 short text에서 정보량이 적어 토픽 품질이 저하되는 단점이 있는데, Twitter Tweet와 같은 짧은 텍스트가 많은 데이터에서 PromptTopic 성능이 좋은 것으로 보아, 활용 가능성이 많은 모델일 것 같다.
또한 LLM이 전통 토픽 모델보다는 파인튜닝, 개선의 여지가 커, 활용 가능성 측면에서도 훨씬 좋을 것으로 생각한다.