# Embedding

KT 에이블스쿨 42일차(1)
오늘은 문자 분류와 임베딩에 대해서 배웠는데 하루가 정신없이 흘러간 것 같습니다.과거 테크닉으로 Bag of Word가 있습니다. raw 데이터를 가지고 모든 단어마다 인덱스를 할당하고 인덱스만큼의 공간을 확보하고 단어가 나온 횟수만큼 숫자를 주어주는 기술입니다. 문자
[NLP #3] SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP, 2021)
한줄 요약: unlabeled or labeled data 모두에서 setence embedding 뽑을 수 있다? Paper: https://aclanthology.org/2021.emnlp-main.552/Code: https://github.co

AI HUB 에세이 글 평가 데이터 Bert 예측 모델 만들기(2)
이전 글에 이어서 데이터 전처리와 모델링 과정을 정리하고자 한다. 4. 데이터 전처리 json파일로부터 필요한 데이터를 가져와 train, test에 넣어주었다. 데이터 전처리는 train, test 구분 없이 한번에 처리하기 위해 temp로 합쳤다. 나중에 학습할

[Go] Embedding
이미 정의한 타입(무언가)을 재활용하여 새로운 타입(무언가)을 만드는 방법으로 상속과 컴포지션이 있다. 많은 언어에서 이 두 가지를 지원한다. 상속: 하위 클래스가 상위 클래스의 특성을 재정의, (IS-A) 관계컴포지션: 하위 클래스가 상위 클래스를 포함, (HAS-
Fast Text
단어를 벡터로 임베딩하는 방법 중 하나매커니즘 자체는 word2vec의 확장이라고 볼 수 있지만, word2vec은 "단어"를 쪼개질 수 없는 단위로 생각한다면, Fast Text는 하나의 단어 안에도 여러 단어들이 존재하는 것으로 간주함즉, 내부 단어(subword)

임베딩
사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체단어 및 문장 간 관련도 계산의미적 및 문법적 정보 함축“… 어머님 나 는 별 하나 에 아름다운 말 한마디 씩 불러 봅니다 …”CBoW 를 사용하면 표시된 단어 정보를 바탕으
Tokenizer 자연어처리
from tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.preprocessing.text import Tokenizernum_words = 100padding_size

[논문리뷰] Incorporating Literals into Knowledge Graph Embeddings
공부 목적으로 작성한 것임으로, 오류가 존재할 수 있다는 점을 말씀드리고 싶습니다 https://arxiv.org/pdf/1802.00934.pdf Knowledge Graph는 entity, relation 그리고 lieral 노드로 구성된다. Literal
NLP Flask API 배포
이번 포스트에서는 학습된 문장 생성 모델을 Flask API를 통해 배포해보는 과정을 살펴보겠습니다.해당 과정은 단순 API를 사용하는 방법을 위한 글이므로 아래와 같은 준비 과정이 완료되었다는 가정하에 진행하겠습니다.생성된 문장 생성 모델이 존재.h5 파일로 저장된

[CSS]embedding방식, link방식, inline방식
css를 사용하면 유지보수가 편하고, 예쁘다는 장점이 있다. head 안에 css를 써야한다.style 부분에서만 바꾸면 되서 편리하다.head부분에 링크 걸기링크로 걸면 링크에서 색깔만 바꾸면 되서 embedding 스타일보다 더 간편하다하나만 색깔을 바꾸고 싶을 때

임베딩(Embedding)이란?
임베딩이란 자연어처리에서 사람이 쓰는 자연어를 기계가 이해할 수 있도록 숫자형태인 vector로 바꾸는 과정 혹은 일련의 전체 과정을 의미합니다.단어나 문장 각각을 벡터로 변환해 벡터 공간(Vector space)으로 끼워넣는다는 의미에서 임베딩이라고 합니다.가장 간단
One Hot Encoding to Embedding
Amonog dataset these below were using one hot encoding 1.supreme industry classification2.median industry classification3.sub industry classification4
One hot encoding VS Embedding
One hot encoding? 집합의 크기 = 벡터의 차원 표현하고자 하는 값에만 1, 나머지는 0한계 : 데이터 개수가 늘어남에 따라 벡터의 차원이 늘어남. : 0으로 채우는 저장공간의 비효율성 Engedding?데이터를 다루기 위해 이산적인 항들을 연속적으

[ValueError]ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list)
Keras에서 embedding을 하는데 갑자기 오류가 났다. ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list).넘파이어레이를 텐서로 바꾸는데 실패했다고 하는데,

[텍스트 마이닝] 9. Embedding(3)
Learn parameters to combine the RNN output across all layers for each word in a sentence for a specific task(NER, semantic role labeling, question ans

[텍스트 마이닝] 8. Embedding(2)
pre-traiend word embeddings great for words that appear frequently in data Unseen words are treated as UNKs and assigned zero or random vectors; every

[NLP | 논문리뷰] Skip-Thought Vectors
부스트캠프 스터디원분들과 진행한 논문 스터디에서 이번주에는 Skip-Thought Vectors라는 생소한 논문을 리뷰했다. Skip-gram과 Word2Vec, Seq2Seq까지 Transformer가 나타나기 이전에 word embedding에서 한 획을 그었다 할