
"목표 모델에 맞게 최대한 정보는 살리고, 노이즈만 제거"가 핵심.
토큰화
정제 및 정규화
어간 추출 및 표제어 추출
불용어
정수 인코딩
| 전처리 단계 | BOW/TF-IDF | RNN/CNN(직접 토크나이저) | 프리트레인드 트랜스포머(BERT/LLM) |
|---|---|---|---|
| 토큰화 | ✅(단어/형태소) | ✅(서브워드 권장: SentencePiece/BPE) | ✅ 모델 전용 토크나이저만 |
| 정제·정규화(공백/제어문자/유니코드 NFKC/HTML 제거) | ✅ | ✅ | ✅(가벼운 정리만) |
| 어간/표제어 | ✅(효과 큼) | △(데이터/언어 의존) | ❌(어휘·포지션 깨짐) |
| 불용어 제거 | ✅(성능↑ 가능) | △(과제 의존) | ❌(사전/컨텍스트 손상) |
| 정수 인코딩(토큰→ID) | ✅(단어 인덱스/TF-IDF vocab) | ✅(자체 vocab/서브워드 ID) | ✅ 반드시 모델 토크나이저로 |
BoW/TF-IDF: 통계적 피처이므로 불용어/어간/표제어로 차원 축소와 노이즈 제거가 효과적.
직접 학습 딥러닝: OOV에 취약 → subword(BPE/Unigram)로 정수 인코딩하면 안정적.
pretrained transformer: 학습된 서브워드 사전·케이싱(cased/uncased)·특수토큰이 이미 최적화. 외부에서 불용어 제거/표제어화하면 사전 정렬과 위치 정보가 깨져 성능 저하가 흔하다.
토큰화
정제·정규화
어간/표제어
불용어
정수 인코딩