
LLM의 성능은 사이즈뿐 아니라 학습 데이터의 양과 질에 결정적으로 좌우된다. 그러나 최근 분석에 따르면, 웹 인덱싱 데이터 증가 속도보다 LLM 학습 데이터셋 확장이 빠르게 진행되고 있어, 향후 10년 내 data exhaustion 이 예상된다.
이 문제를 해결하기 위한 기존 접근은 두 가지다:
본 논문은 이를 보완하기 위해 Generative Data Refinement (GDR) 라는 새로운 패러다임을 제안한다. 핵심은, 실제 데이터를 기반으로 프리트레인된 LLM이 데이터를 재작성(refine)하여 학습 가능한 안전한 데이터셋을 생성하는 것이다. 이 방식은 기존 synthetic data보다 현실성·다양성이 뛰어나며, 동시에 PII·독성·저작권 위험을 제거할 수 있다.


GDR은 데이터셋 (D)를 정제된 데이터셋 (D’)로 변환하는 생성적 과정 (g)로 정의된다.
적용 영역은 크게 텍스트 PII 제거, 코드 익명화, 독성 발화 제거 세 가지이며, 결과물은 “grounded synthetic data”로 불린다.

벤치마크: 20k 문장, 108개 PII 카테고리.
비교 대상: 산업계 표준 DIRS.
결과: Table 1에 따르면,

모델 크기 효과: Figure 2 (p.6) 를 보면, 27B 모델은 precision·recall 모두 0.8~0.9 이상으로, DIRS 대비 월등히 우수하다.

Few-shot & SFT: Figure 3 (p.7) 에서 확인되듯, Flash 8B 모델도 10k 샘플 SFT 후 Gemini Pro 1.5보다 높은 recall·precision을 달성한다.

Synthetic 회사 데이터(10k) → QA fine-tuning 실험.
평가 지표: public fact / private fact 정확도.
Table 2 (p.7) 에 따르면,

데이터: 479 repo, 1.2M LOC.
Figure 4 (p.9) confusion matrix를 보면,
다만 GDR도 일부 false positive (변수명 치환으로 실행 오류 가능) 및 false negative (hash값 미탐지)가 보고되었다.
데이터: 4chan /pol/ 100k thread pair.
독성 측정: Perspective API.

Table 3 (p.9) 에 따르면,

Figure 5 (p.9) 를 보면 카테고리별 독성(혐오·폭력·성적 위험 등) 점수가 고르게 감소.

Knowledge preservation: pol5k-quiz QA 평가. Table 4 (p.9) 에서

Table 5 (p.10) 에 따르면,

Figure 6 (p.11) UMAP 시각화에서도 SyntheticChat은 밀집된 cluster(다양성 부족)를 보이지만, Raw/Refined는 넓은 분포를 유지.
본 논문은 Generative Data Refinement (GDR) 을 통해 데이터 고갈 문제에 대응하는 새로운 synthetic data generation 패러다임을 제시했다.
장점:
한계:
향후 과제: