# Tokenization

4개의 포스트
post-thumbnail

Text preprocessing #2

문장 토큰화(Sentence Tokenization)이번에는 토큰의 단위가 문장(sentence)일 경우를 이야기해보겠습니다. 이 작업은 갖고있는 코퍼스 내에서 문장 단위로 구분하는 작업으로 때로는 문장 분류(sentence segmentation)라고도 부릅니다. 보

2022년 3월 29일
·
0개의 댓글
·
post-thumbnail

Introduction to NLP

본 내용은 'Natural Language Processing with Dan Jurafsky and Chirs Manning, 2012'의 내용을 다룹니다.

2021년 12월 27일
·
0개의 댓글
·

한국어 tokenize가 어려운 이유

영어는 New York과 같은 합성어나 he's 와 같이 줄임말(구체적으로는 접어(clitic))에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 거의 대부분의 경우에서 단어단위로 띄어쓰

2021년 3월 10일
·
0개의 댓글
·

[NLP]자연어 처리

'온라인 행동정보로 상품 추천' 프로젝트에 '검색어'를 feature로 추가하기 위해서 워드 임베딩을 해야했다. 다음은 워드 임베딩에 이르기까지의 과정이다. 기존에 진행했던 것과 같이 구매로 이어진 세션에서 검색어가 있는 경우만 추출데이터 수 : 22239->1262

2021년 1월 14일
·
0개의 댓글
·