
LLM(Large Language Model, 거대 언어 모델) 기술이 점점 고도화 되면서, 각 분야에 많이 적용하고 있다.
특히, 주로 텍스트를 다루기 때문에 Topic Refinement(토픽 모델의 결과 정제), Text Summarization(요약), Text Augmentation(증강) 등 NLP 여러 분야에서 활용된다.
오늘은 그 중에서 LLM을 사용하여 Text Augmentation을 사용한 논문의 일부를 정리하려고 한다.
위 문제를 해결하기 위해 텍스트 내부 구조 정보 또는 의미 정보를 사용한다.
예시 모델로는 BTM(Biterm Topic Model)이 있다.
Short Text로 인한 문제를 해결하기 위해 해당 논문에서는 사람의 토픽 탐지 과정을 이해하고자 하였다.
타이틀 or 캡션은 긴 텍스트의 요약을 담당하는 대표 유형이고 실제로 전체 내용의 힌트 역할
사람은 배경지식을 이용해서 텍스트의 토픽을 추론
(ex-문장 내 FIFA라는 단어가 있다면 ‘스포츠'라는 토픽을 추론)

- GPT-3, , LLAMA2, T5과 같은 LLM은 텍스트 생성에서 좋은 결과 보임
- LLM이 생성한 결과를 보면 ‘스포츠’와 관련된 단어가 종종 포함되어 있음을 확인할 수 있다
- 텍스트 길이도 훨씬 길어져서 토픽 모델이 사용할 정보도 많아짐
Short Text 증강 측면에서 LLM이 가장 현실적인 대안이지만, 고려해야할 several challenge가 있다.
LLM이 이전에 생성한 텍스트를 바로 input으로 사용하지 않고, 토픽 모델을 사용하여 생성한 텍스트(longer text By LLM)를 증강하는 방법을 사용
PVTM → Language Model(LM)과 VAE(Variational AutoEncoder)를 결합하여 short text에서 토픽을 추론
LM은 단독 또는 토픽 모델과 결합하여 문서를 임배딩으로 표현하는 역할로 사용하며, 논문에서는 일부 변수만 파인튜닝(Frozen 방법)을 적용하여 연산량을 줄임
VAE는 잠재 공간으로부터 샘플링하여 디코더를 거쳐 입력을 재구성하는(Decoding) 과정으로 학습
PVTM구조와 설명

기존 짧은 텍스트(t)와 LLM으로 t를 증강시킨 텍스트(T)를 함께 corpus로 생성하여 vocab 생성
기존 텍스트에 Frozen Pretrained LM을 사용하여 임베딩 생성
MLP 사용, Topic Representation Z를 샘플링할 평균(mu)과 분산(sigma^2)를 갖는 가우시안 분포 생성
Topic Representation Z 샘플링
샘플링 된 Z를 Decoder 네크워크 통과시킨 재구성 결과와 증강시킨 텍스트의 BoW와 손실을 계산하여 모델 하습
(ST : 기존 텍스트, ET : 증강된 텍스트)

(SVM : Support Vector Machine, LR : Logistic Regressor)

토픽 일관성, 다양성을 포함한 분류 성능에서도 기존 baseline 대비 PVTM에서 가장 좋은 성능
다음 포스팅에서는 PVTM에 사용한 prefix-tuning과 비슷한 방법인 prompt-tuning에 대해 정리하려고 한다!