# tokenizer

GPT 토큰-이득 (작성중)
gpt api 과금은 토큰 수에 따라 결정 되는데, 프롬프트의 토큰 수는 openai의 tokenizer에서 확인 할 수 있다.예시로 "I like apple"은 3토큰임을 알 수 있다.그리고 "나는 사과가 좋다"는 같은 의미지만, 한국어로 작성되어 19토큰을 차지하는
한글 vocab 만들기
BERT나 GPT에서 BPE라는 알고리즘을 사용하는데 이는 한글의 발음 체계를 고려하지 않음ex) ㅎ, 하, 한 이 전부 다른 Byte로 인식되는 문제점이 발생형태소에 기반한 vocab을 만들고 이를 활용하여 한국어 모델을 만들어 성능을 비교해보는 것이 목표형태소 분석

BEATs: Audio Pre-Training with Acoustic Tokenizers 리뷰
해당 논문은 2022년에 microsoft사에서 발표하였다.https://arxiv.org/abs/2212.09058먼저 간략히 요약 하자면기존의 reconstruction loss를 사용하는 Audio SSL 모델과 달리 self-distilled token

[CS] XML Parser
XML은 정형화된 데이터를 표현하는데 많이 사용하는 방식이다.간단한 구조의 HTML5, PLIST 같은 XML 문서를 분석해서 DOM 구조로 만드는 XML Parser를 직접 만들어보자.
Tokenizer, Lexer, Parser
컴파일러란 고급언어로 작성된 프로그램을 번역해 기계어로된 프로그램을 만들어 주는 역활을 한다.이때 구문분석 -> 최적화 -> 코드생성 -> 링킹의 과정을 거치는데, 구문분석 과정에서 소스코드는 Tokenizer, Lexer, Parser를 차례로 거친다. 이포스팅에선
텍스트 전처리
1. 차원의 저주 1) 단어 수준으로 토큰화 > sent 0 : ['I', 'am', 'a', 'student.'] sent 1 : ['J', 'is', 'the', 'alphabet', 'that', 'follows', 'i.'] sent 2 : ['Is', 'sh
Tokenizer 자연어처리
from tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.preprocessing.text import Tokenizernum_words = 100padding_size

[huggingface course] 2-4. Tokenizers
과제를 위해서 허깅페이스 튜토리얼 강의를 보다가 한국어 버전이 없어서 공부겸 간단하게 번역본을 정리합니다.제가 임의로 번역한거라 뜻이 이상할수도 있고 귀찮으면 번역기 돌리는 부분도 많을거라 내용 이상할수도 있습니다.Tokenizers토크나이저는 NLP 파이프라인의 핵심
[CS224n #2] BPE: Neural machine translation of rare words with subword units (ACL, 2016)
Task : NMT에서의 Open-vocabulary problem Approach : Byte pair encoding 기법을 이용한 Subword unitsResults : rare & OOV에서 성능 좋다.review 전 나의 의문!Fast text의 subwor
Tokenizer Filter
전처리 필터를 거쳐 토크나이저 필터로 문서가 넘어오면 해당 텍스트는 Tokneizer의 특성에 맞게 적절히 분해된다.분석기에서 어떠한 토크나이저를 사용하느냐에 따라 분석기의 전체적인 성격이 결정됨일반적으로 사용하는 토크나이저대부분의 기호를 만나면 토큰으로 나눈다공백을

[TIL] 텍스트 전처리
subword Tokenization > 학습데이터에서 보지 못했던 새로운 단어가 나타난다면? example train data: low, new, newer test data: lower 이러한 케이스에서는 low, new, er로 train data를 잘 분리

[NLP] Tokenizer 제작하기
개요 현재 대부분의 NLP task는 PLM (Pre-trained Language Model)을 통한 전이 학습이 대세로 자리잡았다. 하지만 긴 Pretraining을 수행 전 vocab을 만드는 건 정말 중요하다. 좋은 vocab을 만드는 것이 곧 토크나이징 퀄리
[D&A 운영진 딥러닝 스터디] 4주차 1차시
Text 데이터를 분석하고 모델링하는 분야NLU + NLG자연어 이해(NLU; Natural Language Understanding): 자연어를 이해하는 영역자연어 생성(NLG; Natural Language Generation): 자연어를 생성하는 영역NLP 과정T

elasticsearch index 생성 삭제 수정, 노리 토큰 설정
elasticsearch@7.12의 index 생성에 대해 curl로 간단히 정리해보자. 이 때 노리 형태소 분석기와 토큰을 설정해줄 것이다.새로운 인덱스를 생성하는 방법이다. 인덱스에는 기본적으로 settings, mappings, alias가 있을 수 있는데, 이번

나만의 언어모델 만들기 - Wordpiece Tokenizer 만들기
말뭉치 데이터(Corpus)를 바탕으로 언어모델을 만드려고 할때, 말뭉치 데이터를 언어모델에 학습시키기 위해서는 우리가 사용하는 자연어를 벡터로 변환하는 과정이 필요하다. 자연어를 벡터로 변환하기 위해서는 자연어를 토큰화 하고, 토큰화된 단어들에 인덱스를 부여해서,
[Mote] Tokenizer 기법
문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.<split 방법><WordPunctTokenizer 방법><TreebankWordTokenizer 방법><RegexpTokenizer 방법>