NLP: 전처리(Preprocessing)

Ohback·2025년 2월 18일

SK 네트웍스 Family AI camp

목록 보기

32/73

자연어처리(NLP)에서의 전처리는 말 그대로 텍스트 데이터를 처리하기 전에 다듬는 과정을 의미한다. 모델이 언어를 정확히 이해하고 학습할 수 있도록 노이즈를 제거하고 형식을 통일하는 것이 핵심!

결국, 단순히 보기 좋게 만드는 수준이 아니라 텍스트가 기계가 이해할 수 있는 구조로 바뀌도록 하는 데 목적이 있다. 전처리가 잘 되어야 이후의 임베딩, 모델 학습, 예측까지도 의미 있는 방향으로 흐르게 된다.

1) 토큰화 (Tokenization): 문장을 단어 또는 문자 단위로 나누는 과정

단어 토큰화: "나는 우리반 친구들이 너무 좋다."
→ ["나는", "우리반", "친구들이", "너무", "좋다", "."]
문장 토큰화: "나는 우리반 친구들이 너무 좋다. 선생님도 너무 좋다."
→ ["나는 우리반 친구들이 너무 좋다.", "선생님도 너무 좋다."]

2) 불용어 제거(Stopword Removal): 의미 전달에 불필요한 단어 제거

3) 대소문자 변환(Casing): 모든 문자를 대문자 또는 소문자로 변환

4) 어간 추출(Stemming) 및 표제어 추출(Lemmatization)

5) 정규화(Nomalization): 같은 의미의 다른 표현 통일

6) 특수 문자 및 숫자 제거

기록은 기억을 지배한다.