딥러닝 텐서플로 교과서 - 9장

Jajuna_99·2022년 10월 13일
0

9장 자연어 전처리

자연어 처리란

자연어 처리 : 일상생활에서 사용하는 언어의 의미를 분석, 전처리, 처리하는 일련의 과정.
딥러닝 뿐만 아니라 수학, 통계, 언어학적 인사이트 또한 필요하다.

자연어 처리 용어

  • 말뭉치(corpus) : 자연어 처리에서 모델을 학습시키기 위한 데이터.
  • 토큰(token) : 문서를 나누는 단위. 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라 한다.
  • 토큰화(tokenization) : 텍스트를 문장이나 단어로 분리하는 것.
  • 불용어(stop words) : 고빈도의, 분석과 관계없는, 사전에 제거되는 단어들. ex) "a", "the", "he"
  • 어간 추출(stemming) : 단어를 기본 형태로 만드는 작업. -> ex) 동사를 원형으로 만들기
  • 품사 태깅(part-of-speech, POS) : 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그.

NLTK 라이브러리를 활용해서 품사 태깅 출력 구현 (p.364)

자연어 처리 과정

크게 4가지로 구분할 수 있다.

  • 자연어 : 입력 텍스트(input text), 인간의 언어
  • 전처리 : 토큰화(tokenization), 불용어 제거(stop words), 어간 추출(stemming), 정규화(normalization)
  • 임베딩 : 단어 -> 벡터 변환
  • 모델/모형 적용 : 결정 트리, SVM 등

NLTK 라이브러리를 활용해서 전처리 구현 (p.367)
KoNLPy 라이브러리와 여러 관련 라이브러리 설치 방법 및 설명 (p.368)

전처리

전처리 실습(p.375)

결측치 확인, 처리 -> 문장, 단어 토큰화 -> 불용어 제거 -> 어간 추출 -> 정규화

요약

자연어 처리란 과제가 무엇인지, 전처리는 어떻게 하는지 가볍게 하고 넘어가는 장이다.

profile
Learning bunch, mostly computer and language

0개의 댓글