# fasttext
[Paper Review] FastText
Skip n-gramThere are two ways to learn word embedding using (Deep)NN according to our perspective.One is CBOW(Continuous Bag of Words), which is focus
GNN과 문자형 변수 처리
표제어 추출이 완료된 'Book-Title' column을 벡터로 만드는 두 가지 방법이 있다.Label Encoder+Embeddign Layer : 하지만 각 책 제목을 하나의 벡터로 표현하기 때문에, 책 제목 내의 개별 단어들 사이의 관계를 고려하지 못할 수 있다

Fasttext 모델을 활용한 Text-analysis
다음 링크를 참고하여 실습을 진행했습니다. (https://github.com/sw-song/text-analysis/blob/main/01_sentence_similarity.ipynb)Chatgpt로부터 필요한 문장에 관해 필요조건을 설명하고 문장을 추천받

단어 임베딩
단어 임베딩 : 단어를 낮은 차원의 벡터로 나타내는 것원핫 인코딩은 sparse, 용량 많이 차지, 단어 의미 고려 안함단어의 의미를 좌표로 나타내는 것 또는 수치화 → 의미가 비슷한 단어들은 비슷한 값을 가짐단어 임베딩의 다차원 공간상에서 방향에 의미가 있어야 함단어

[논문리뷰] FastText
기존의 인기있는 모델들은 단어마다 다른 벡터를 할당하여 단어의 형태를 무시한다. 큰 어휘들과 드물게 사용되는 단어에 한계가 있다. 이 한계를 극복하기 위해 본 논문에서는 skipgram 기반 모델로, 각각의 단어를 character n-gram 벡터의 조합으로 표현했다

[자연어처리] Static Word Embedding 후 결과 비교 분석하기
영화 감상이 취미인 나는 거의 매주 영화관에 가서 개봉하는 영화들을 챙겨봤었는데 영화를 많이 보다 보니 좋아하는 영화 감독이 생겼고 그들의 영화가 개봉하면 꼭 챙겨보고 있다. 좋아하는 감독들의 연출기법, 장르, 소재, 분위기 등은 각자 완전히 다른데, 문득 내가 왜 그
fasttext 단어 학습
첫번째 인자로는 파일주소를 넣어줘야한다.학습하는 파일은 스트링으로 되어 있으며, 구분자는 \\n과 띄어쓰기로 되는것으로 추정이것도 된다고는 하는데 난 안됐음... 그래thㅓ 조금 슬펐ㄷr,,, 😿 😿 😿계속 파일을 training하는데 사용할 수 없다는 에러 발생

Embedding이 중요한 이유
임베딩에는 Corpus의 의미, 문법 정보가 함축되어있다.임베딩은 Vector이므로 연산이 가능하며, 단어/문장/문서 간의 유사도를 측정할 수 있다.전이학습(Transfer Learning)을 통해 Fine-tuning하여 과제에 맞게 업데이트. 효과적인 이유가 제로베
[TIL]파이토치 딥러닝 프로젝트 모음집_국민청원분류
한 줄씩 따라 해보는 파이토치 딥러닝 프로젝트 모음집책 내용을 colab을 통해 작성 및 실행크롤링 : API형태로 변경 : lovit님의 청와대 국민청원 데이터셋데이터 전처리토크나이징 및 변수생성 : konlpy(Twitter) -> pynori단어 임베딩 : wo

FastText 와 LDA 이해하기
이번에 프로젝트를 마무리 함에 있어서 FastText 와 LDA에 대해 다시 한 번 정리하는 시간을 가져보고자 한다. LDA에 관하여 우선 LDA 즉 잠재 디리클레 할당에 대해서 이해 하기 위해서 토픽 모델링과 기존에 작성하였던 TF-IDF로 추천 시스템 구현하기
Enriching Word Vectors with Subword Information(fasttext)
Fasttext 논문(Enriching Word Vectors with Subword Information)을 리뷰해 보았습니다.