[TIL]Day 90

이재희·2021년 2월 27일
0

TIL

목록 보기
90/312

Word2Vec(Word Embedding to Vector)
주위 단어가 비슷하면 해당 단어의 의미는 유사하다 라는 아이디어
단어를 트레이닝 시킬 때 주위 단어를 label로 매치하여 최적화
단어를 의미를 내포한 dense vector로 매칭 시키는 것

Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 본다. 예를 들어, 파리와 프랑스가 베를린과 독일이 (수도와 나라) 같은 방식으로 관련되어 있음을 이해한다.

Word2Vec 기법은 CBOW와 Skip-Gram기법이 있다.

CBOW(continuous bag-of-words)는 전체 텍스트로 하나의 단어를 예측하기 때문에 작은 데이터셋일 수록 유리하다.
아래 예제에서 __ 에 들어갈 단어를 예측한다.

1) __가 맛있다.
2) __를 타는 것이 재미있다.
3) 평소보다 두 __로 많이 먹어서 __가 아프다.

Skip-Gram은 타겟 단어들로부터 원본 단어를 역으로 예측하는 것이다. CBOW와는 반대로 컨텍스트-타겟 쌍을 새로운 발견으로 처리하고 큰 규모의 데이터셋을 가질 때 유리하다.

배라는 단어 주변에 올 수 있는 단어를 예측한다.

1) 가 맛있다.
2) 를 타는 것이 재미있다.
3) 평소보다 두 로 많이 먹어서 가 아프다.

https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/tutorial-part-2.ipynb

Glove
https://joyhong.tistory.com/139

프로시저
https://medium.com/@kimddub/sql-stored-procedure-%EC%A0%80%EC%9E%A5-%ED%94%84%EB%A1%9C%EC%8B%9C%EC%A0%80-%EB%9E%80-dbms%EC%9D%98-%ED%95%A8%EC%88%98-d9eab996b2d4

파이썬으로 한글만 추출하기
https://doubly12f.tistory.com/64

파이썬 타입 확인
https://nightohl.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%8D%AC3-%ED%83%80%EC%9E%85-%ED%99%95%EC%9D%B8-%EA%B2%80%EC%82%AC-%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95

profile
오늘부터 열심히 산다

0개의 댓글