자연어처리(NLP)에서의 전처리는 말 그대로 텍스트 데이터를 처리하기 전에 다듬는 과정을 의미한다. 모델이 언어를 정확히 이해하고 학습할 수 있도록 노이즈를 제거하고 형식을 통일하는 것이 핵심!

결국, 단순히 보기 좋게 만드는 수준이 아니라 텍스트가 기계가 이해할 수 있는 구조로 바뀌도록 하는 데 목적이 있다. 전처리가 잘 되어야 이후의 임베딩, 모델 학습, 예측까지도 의미 있는 방향으로 흐르게 된다.
1) 토큰화 (Tokenization): 문장을 단어 또는 문자 단위로 나누는 과정
2) 불용어 제거(Stopword Removal): 의미 전달에 불필요한 단어 제거
3) 대소문자 변환(Casing): 모든 문자를 대문자 또는 소문자로 변환
4) 어간 추출(Stemming) 및 표제어 추출(Lemmatization)
5) 정규화(Nomalization): 같은 의미의 다른 표현 통일
6) 특수 문자 및 숫자 제거
전처리가 과하면 정보가 손실될 수 있음
예를 들어 "not good"에서 "not"을 지우면 의미가 완전히 바뀌게 됨.
언어와 태스크에 따라 전략이 달라져야 함
챗봇, 감정 분석, 번역 등 작업 목적에 따라 불용어를 제거할지 말지도 달라짐