[논문]pplx-embed

타샤's 월드·2026년 3월 28일

웹 규모의 검색을 위한 다국어 임베딩 모델 패밀리

웹 스케일 검색·RAG에서 고품질 텍스트 임베딩 제공.

backbone	디퓨전(diffusion) 사전학습 LM
traning	다단계 대조 학습(multi-stage contrastive learning)

모델 종류

디퓨전?

GPT
- I love → [ ? ]
- 이전 토큰을 기반으로 이후 토큰을 예측
- 단방향
BERT
- I [mask] you
- 랜덤하게 마스킹 하는 방식으로 학습
- 양방향
Diffusion
- I [noise] you [noise] much → I [noise] you so much → I love you so much
- 스탭별로 점진적 노이즈 제거
- 양방향

1. Continued Pretraining

Decoder-only LLM(Qwen3)을 diffusion objective로 재학습해 bidirectional attention 기반 인코더로 전환한다. 이후 모든 단계의 베이스 모델이 된다.

2. Pair Training

쿼리–문서 쌍을 InfoNCE 기반 contrastive loss로 학습한다. English → cross-lingual → multilingual 순서의 커리큘럼으로 진행된다.

3. Triplet Training

Pair Training 체크포인트에서 hard negative를 포함한 triplet 형식으로 추가 학습한다. 의미적으로 유사하지만 관련 없는 문서 간 구분력을 높이는 단계다.

4. Contextual Training

Pair Training과 병렬로 진행된다. 문서를 청크로 나눌 때 청크 임베딩에 문서 전체의 전역 컨텍스트를 반영하도록 학습한다. pplx-embed-context-v1 전용 단계다.

5. Merging & Selection

Triplet Training 결과와 Contextual Training 결과 두 체크포인트를 spherical interpolation으로 병합해 최종 모델 두 가지를 산출한다.

최종 출력

그때 그때 꽂힌것 하는 개발블로그