한국어 임베딩 1

2400·2023년 5월 1일

임베딩을 만드는 3 철학

BoW (Bag of Words)

어떤 단어가 많이 쓰였는가?
ex. TF-IDF
ex. Deep Averageing Network : Iyyer et al. 2015 : 각 단어를 DL 모델로 임베딩하여 문장의 단어들을 순서 상관없이 평균해준다. 그 값으로 분류해준다. 간단하지만 성능이 좋아서 현업에서 자주 쓰인다.

언어 모델

단어가 어떤 순서로 쓰였는가
ex. ELMo, GPT
ex. 통계 기반 모델 : n-gram : 학습에 한번도 등장하지 않는 n-gram이 존재할때 예측시 문제 발생. 이를 극복하기 위해 back-off, smoothing 방식이 제안됨.

back-off : 7-gram으로 예측시 본 적 없는 시퀀스가 발생했다. 그렇다면 6-gram, 5-gram, ... 등으로 빈도를 근사한다. 이때 5-gram 빈도가 존재한다면 적절한 가중치와 오차항을 넣어줘서 보정해준다. ( 예상되는 7-gram의 빈도와 유사하도록 )

smooothing : 시퀀스를 계산하기 전, 등장 빈도 표에 모두 k 만큼 더해준다. 따라서 add-k 라고 불리기도 한다. 만약 k=1 이라면 라플라스 무딩이라고 한다.

분포 가정

어떤 단어가 같이 쓰였는가?
ex. PMI
ex. Word2Vec

분포 가정 : 특정 범위 ( window ) 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 단어 쌍이 비슷한 문맥 환경에서 자주 등장

=================

bpe : byte pair embedding
가장 많이 등장한 문자열을 병합해 문자열을 압축한다.
aaabdaaabac -> aa : Z -> ZabdZabac

2400

공부용 혹은 정리용 혹은 개인저장용

이전 포스트

TimeSeries 임베딩 : Rocket

다음 포스트

한국어 임베딩 1

TimeSeries 임베딩 : Rocket

Isolation Forest / Extended Isolation Forest

0개의 댓글