전처리

한지용·2021년 6월 8일
0

DeepLearning

목록 보기
2/9

전처리

전처리 과정

  • 코퍼스 수집
  • 정제
  • 문장 단위 분절
  • 분절
  • 병렬 코퍼스 정렬(생략)
  • 서브워드 분절

Corpus

  • 말 뭉치 라고도 불리며 여러 단어들로 이루어진 문장을 의미한다
  • 단일 언어 moonolingual , 이중 언어 bilingual, 다중 언어 multilingual, 언어간에 쌍으로 구성되는 병렬 corpus

코퍼스 수집: 크롤링 등.
정제(Normalization) : 전각 문자 제거(특수문자), 대소문자 통일
문장 단위 분절: 여러 문장이 한 줄에 있거나 여러 줄에 한 문장이 걸쳐 있는 경우 문제 발생
분절 : 형태소 분석, 단순한 규칙을 통한 분절, 보통 띄어쓰기
서브워드 분절 : '단어는 의미를 가진 더 작은 서브 워드들의 조합으로 이루어진다' 는 가정하에 적용 되는 알고리즘으로 적절한 서브 워드들을 발견하여 해당 단위로 쪼개어주면 어휘 수를 줄일 수 있고, 희소성을 효과적으로 줄일 수 있다.

0개의 댓글