0. Cleaning & Normalization
- 텍스트 전처리 과정은
(1) tokenization : courpus에서 용도에 맞게 토큰 분류
(2) cleaning(정제) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
(3) normalization(정규화) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
정제작업은 100%완벽한 정도 도달이 어려워 보통 어느정도 기준에대한 합의점을 두고 진행된다. 정제/정규화 대상 텍스트 필터링에 regular expression이 많이 사용된다.
1. 정규화
- 규칙 기반 표기가 다른 언어 통합
- 대소문자 통합
1.1 규칙 기반 표기가 다른 언어 통합
- 같은 의미를 갖는, 표기가 다른 언어들을 하나의 단어로 정규화 하는 방법.
=> 어간추출(stemming)
=> 표제어추출(lemmaization)
1.2 대소문자 통합
- 영어권에서 동일단어 통합가능하나 US / us같이 구분해야하는 케이스도 존재.
머신러닝 시퀀스 모델로 진행도 가능하지만 모든 코퍼스를 소문자로 바꾸는 것, 문장 맨앞 대문자 단어만 소문자로 바꾸는 것 등이 해결책이 되는 다양한 케이스 존재.
2. 정제
- 불필요한 단어(noise) 제거
(1)등장빈도가 적은 단어
(2)길이가 짧은 단어
(3) 불용어
2.1 등장 빈도가 적은 단어
- 데이터에서 너무 적게등장할경우 자연어처리 도움이 되지 않을 수 있어 제거
2.2 길이가 짧은 단어
- 영어권에서는 길이가 짧은 단어 삭제 시 효과. 한국어에서는 유효하지 않는 경우가 많다.