자연어처리 개요(5)

chiro-J·2023년 6월 22일

NLP(자연어처리)

목록 보기
5/5
post-thumbnail

텍스트 전처리(Text Preprocessing)

Tokenization(토큰화)


형태소 분석

형태소(morpheme)는 언어학에서 (일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떠어낼 수 있는 것을 말한다.
즉, 더 분석하면 뜻이 없어지는 말의 단위이다.

예) 한나가 책을 보았다.

형태소의 " 의미/기능 "으로 구분

  • 실질형태소

    어휘적 의미가 있는 형태소로 어떤 대상이나 상태, 동작을 가리키는 형태소를 말한다.
    일반적으로 명사, 동사, 형용사, 부사가 이에 속한다.
    위의 예에서는 "한나", "책", "보"가 이에 해당한다.

  • 형식형태소

    문법적 의미가 있는 형태소로 어휘형태소와 함께 스여 그들 사이의 관계를 나타내는 기능을 하는 행태소를 말한다.
    한국어에서는 조사, 어미가 이에 속한다.
    위의 예에서는 "가", "을", "았", "다"가 이에 해당한다.


형태소의 " 의존성 "으로 구분

  • 자립형태소

    다른 형태소 없이 홀로 어절을 이루어 사용될 수 있는 형태소를 말한다. 한국어에서는 일반적으로 명사, 대명사, 수사, 관형사, 부사, 감탄사 등이 이에 속한다.
    위의 예에서는 "한나", "책"가 이에 해당한다.

  • 의존형태소

    문장에서 반드시 다른 형태소와 함께 쓰여서 어절을 이루는 형태소를 말한다. 한국어에서는 조사와 어미는 물론 이에 속하고 용언의 어간 즉 동사, 형용사의 어간이 이에 속한다.
    위의 예에서는 "가", "을", "보", "았", "다"가 이에 해당한다.


Vocabulary(어휘집)

중복을 제거한 어휘와 index가 정의된 집합이다. 어휘집을 통해 문자를 숫자로 변환할 수 있다.



※ 정리

토큰화는 형태소 분석을 근거로 이루어지며,
토큰화가 적용된 값들은 idx : word 형식으로 정의 된다.
이러한 원소들의 집합을 '어휘집' 이라고 하며,
문자를 숫자로 변환할 수 있다.

0개의 댓글