
자연어의 의미, 자연어처리, 인코딩&디코딩

아스키 코드와, 유니코드, 그리고 유니코드 정규화

텍스트 전처리(Text Preprocessing) Cleaning(정제) Stemming(추출)

주어진 문장에서 "의미 부여"가 가능한 단위를 찾습니다.토큰화는 형태소 분석기를 이용하여 진행됩니다. 다만, 각 형태소 분석기마다 토큰화를 하는 방식이 다르기 때문에 사용하는 데이터(또는 목젝어)에 맞는 형태소 분석기를 찾아서 사용해야 합니다.

형태소의 종류와 어휘집