[자연어처리] Text Tokenization

KIMHYUNSU·2025년 4월 24일

NLP

목록 보기

8/22

본격적으로 workflow 구현을 들어가기 전에 token 단위를 어떻게 설정할 건지가 제일 중요
document를 작은 unit 들로 쪼개기
쪼갠 단위가 정보 처리 단위가 되도록 -> tokenization

단위 별로 의미 분석을 잘 하기 위해서..
문맥의 경계, word 이해 용이
영국영어와 미국영어를 같다고 가정(normalizing)
두 version 을 같게 만드는 과정이 필요

text tokenization 왜 하지?

형태소 단위 분석
→ 형태소 단위 결과 → 프로세싱에 유용하게 쓸 수 있음

마찬가지로 text tokenization 도 보통 하는 게 보편적

단순하게 공백을 기준으로 나눌 수도 있지만 더 성능이 높게 나오는 방법이 있을 수 있음
-> 잘 생각 해야한다...

lemma:

어근

wordform

단어 형태

token:

모든 word 하나씩의 단위

중복 허용

유닛의 실체

type:

유일한 word 하나씩의 단위

중복 x

고유한 token, 유니크한 유닛

vocabulary construction 을 하는데 이 때 token 과 type의 개념이 필요
고유한 token을 가지고 voca를 뽑아 쓸 거기 때문에 중요..

google n-gram
단어의 빈도에 관한 통계정보를 담은 corpus

이렇게 특별하고 다양한 경우에 토큰화를 어떻게 할 것인지가 중요함..

중국말 -> 공백이 없어서 공백 단위 토큰화는 불가능

그래서 앞에서부터 길게(max) 말이 되는 단위로 토큰화하는 방식이 있음

근데 이 방법을 영어에도 적용하면?