[NLP 2주차] Text Preprocessing

soyyeong·2023년 9월 18일

NLP 자연어처리

목록 보기
5/5

NLP의 종류

(cf. Jurafsky & Martin)

  • Phonology : 음운론. 사람의 음성을 어떻게 음정으로 바꿀 것인지, 누가 발화하는 건지
  • Morphology : 형태론. 텍스트를 형태소로 쪼개는 과정
  • Syntax : 통사론. 단어들간의 구조. 주어, 목적어.. 의 위치
  • Semantics : 의미론. 의미가 무엇이냐
  • Pragmatics : 화용론. 화자-청자 관계에 따른 언어 사용, 화자의 의도와 발화의 의미는 어떻게 다른지..
  • Discourse : 담화.

NLP의 역사

  1. (-1980년대) Rule-Based
    : Rule-based approach 는 이미 정의된 문법이나 언어규칙을 사용해서 텍스트를 분석하는 것을 의미한다. 그러나 자연어가 가진 시간에 따라 의미가 변한다는 특성에 의해 성공하지 못 했다.

  2. (-1990년대) Statistical
    : Statistical approach는 학습데이터를 기반으로 Hidden Markov Model(HMMs), Bayes' models, Support Vector Machines(SVM), Clustering 등을 진행

  3. (~현재) ML&DL
    : 현재는 NLP 분야에서 머신러닝, 딥러닝 접근법을 많이 쓴다. 과거에는 중간중간 사람의 개입으로 도메인 지식을 요했는데, 현재는 처음부터 끝까지 사람의 개입이 없는 종단학습이 가능해진다.

POS Tagging

  • 포스 태깅이란?
    • POS란, 품사(Part-of-Speech)를 의미하며 문장에서 각 단어가 어떤 품사인지를 태깅하는 걸 포스태깅이라고 한다. 영어는 아래처럼 8품사를 가지고 있으며, 이중 preposition, particle, article 는 우리말 국어에는 없는 품사들이다.
      1) 명사(Noun)
      2) 동사(Verb)
      3) 대명사(Pronoun)
      4) 전치사(Preposition)
      5) 부사(Adverb)
      6) 접속사(Conjunction)
      7) 전치사(Particle)
      8) 관사(Article)```

POS 태깅 알고리즘은 아래 세 가지로 나눠볼 수 있다.

  • pointwise prediction
  • Probabilistic models
  • Neural network-based model

pointwise prediction

  • classifier가 각 단어에 대해 POS를 분류하는 방식이다.
  • 위 사진처럼 주변 4개의 단어들을 봐서 'processing'이라는 단어가 NN인지, VBG인지.. 를 분류한다. classifier가 옆으로 한 칸씩 이동하면서 각 단어의 POS를 분류한다.
  • Classifier로는 Maximum Entropy Model, SVM 등을 사용할 수 있다.
  • reference : Pointwise prediction outline

Probabilistic models

  • Probabilistic model은 아래 두 가지로 나눌 수 있다.
    • Generative sequence models
    • Discriminative sequence models
    • 둘을 비교한 내용 : Generative vs. Discriminative Machine Learning Models
    • Probabilistic model for POS Tagging

      주어진 문장에 대해 가장 그럴듯한 tag 시퀀스를 추출하는 방식이다.
  • Generative sequence models

    • 문장의 전체를 입력받아 각 단어를 순차적으로 POS를 예측해 나가는 것으로 이전 입력값의 확률을 기반으로 새로운 데이터 시퀀스를 생성해 나가는 마코프 체인의 원리를 기반으로 한다. (Hidden Markov Model, HMM)
    • Hidden Markov Model
    • 위키피디아 Hidden Markov Model
  • Discriminative sequence models
    전체의 시퀀스를 분류기로 한 번에 예측
    자연어처리 분야에서 많이 사용되는 통계적 모델링 기법입니다.
    사진 하나의 행동을 분류할 때, 하나의 행동 Sequence만을 보고 판단하지 않고 사진을 찍은 순간의 이전/이후를 참조하여 지금 상태를 결정합니다.

Neural network-based models

(수정중)

profile
블로그 이전 중입니다 : https://www.soyeong.kr/

0개의 댓글