딥 러닝을 이용한 자연어처리 입문1. 텍스트 전처리(2)

정선용·2021년 8월 12일
0

0. Cleaning & Normalization

  • 텍스트 전처리 과정은
    (1) tokenization : courpus에서 용도에 맞게 토큰 분류
    (2) cleaning(정제) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
    (3) normalization(정규화) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

정제작업은 100%완벽한 정도 도달이 어려워 보통 어느정도 기준에대한 합의점을 두고 진행된다. 정제/정규화 대상 텍스트 필터링에 regular expression이 많이 사용된다.

1. 정규화

  • 규칙 기반 표기가 다른 언어 통합
  • 대소문자 통합

1.1 규칙 기반 표기가 다른 언어 통합

  • 같은 의미를 갖는, 표기가 다른 언어들을 하나의 단어로 정규화 하는 방법.
    => 어간추출(stemming)
    => 표제어추출(lemmaization)

1.2 대소문자 통합

  • 영어권에서 동일단어 통합가능하나 US / us같이 구분해야하는 케이스도 존재.
    머신러닝 시퀀스 모델로 진행도 가능하지만 모든 코퍼스를 소문자로 바꾸는 것, 문장 맨앞 대문자 단어만 소문자로 바꾸는 것 등이 해결책이 되는 다양한 케이스 존재.

2. 정제

  • 불필요한 단어(noise) 제거
    (1)등장빈도가 적은 단어
    (2)길이가 짧은 단어
    (3) 불용어

2.1 등장 빈도가 적은 단어

  • 데이터에서 너무 적게등장할경우 자연어처리 도움이 되지 않을 수 있어 제거

2.2 길이가 짧은 단어

  • 영어권에서는 길이가 짧은 단어 삭제 시 효과. 한국어에서는 유효하지 않는 경우가 많다.
profile
정선용

0개의 댓글