# tokenizer

7개의 포스트
post-thumbnail

[TIL] 텍스트 전처리

subword Tokenization > 학습데이터에서 보지 못했던 새로운 단어가 나타난다면? example train data: low, new, newer test data: lower 이러한 케이스에서는 low, new, er로 train data를 잘 분리

2022년 3월 20일
·
0개의 댓글
post-thumbnail

c++ tokenizer

2022년 2월 24일
·
0개의 댓글

Tokenizer 제작하기

개요 현재 대부분의 NLP task는 PLM (Pre-trained Language Model)을 통한 전이 학습이 대세로 자리잡았다. 하지만 긴 Pretraining을 수행 전 vocab을 만드는 건 정말 중요하다. 좋은 vocab을 만드는 것이 곧 토크나이징 퀄리

2022년 2월 14일
·
0개의 댓글

[D&A 운영진 딥러닝 스터디] 4주차 1차시

Text 데이터를 분석하고 모델링하는 분야NLU + NLG자연어 이해(NLU; Natural Language Understanding): 자연어를 이해하는 영역자연어 생성(NLG; Natural Language Generation): 자연어를 생성하는 영역NLP 과정T

2022년 1월 22일
·
0개의 댓글
post-thumbnail

elasticsearch index 생성 삭제 수정, 노리 토큰 설정

elasticsearch@7.12의 index 생성에 대해 curl로 간단히 정리해보자. 이 때 노리 형태소 분석기와 토큰을 설정해줄 것이다.새로운 인덱스를 생성하는 방법이다. 인덱스에는 기본적으로 settings, mappings, alias가 있을 수 있는데, 이번

2021년 5월 25일
·
0개의 댓글
post-thumbnail

나만의 언어모델 만들기 - Wordpiece Tokenizer 만들기

말뭉치 데이터(Corpus)를 바탕으로 언어모델을 만드려고 할때, 말뭉치 데이터를 언어모델에 학습시키기 위해서는 우리가 사용하는 자연어를 벡터로 변환하는 과정이 필요하다. 자연어를 벡터로 변환하기 위해서는 자연어를 토큰화 하고, 토큰화된 단어들에 인덱스를 부여해서,

2020년 10월 26일
·
0개의 댓글

[Mote] Tokenizer 기법

문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.<split 방법><WordPunctTokenizer 방법><TreebankWordTokenizer 방법><RegexpTokenizer 방법>

2020년 8월 7일
·
0개의 댓글