# Bag of Words
Bag of Words
정의문서를 자동으로 분류하는 방법 중 하나문서 내의 단어의 빈도와 분포를 보고 어떤 종류의 문서인지 판단Ex) 미드필더, 골기퍼, 심판 --> 축구과정등장하는 단어로부터 단어장을 생성해 출현 횟수 측정출현 빈도로 히스토그램 작성히스토그램으로부터 문서 속성 분류

[NLP] 자연어처리 임베딩
단어 빈도를 이용하는 방법단어 사전을 미리 구축 → 무작위로 corpus 내에 단어를 꺼내서 라벨을 부여문장 속 단어 빈도를 표시한다장점쉽고 직관적이다 문장을 숫자로 변환단어 빈도를 기반으로 문서 유사도를 파악 할 수 있다.단점단어의 빈도만 고려할 뿐 순서 고려 x세상

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)
TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍
[NLP] Bag-of-Words
: 자연어 처리, text-mining 분야에서 딥러닝 기술이 적용되기 이전에 많이 활용된, 단어 및 문서를 숫자형태로 나타내는 가장 간단한 형태의 기술step1) 문장에서 고유 단어를 뽑아 단어 모음집을 만든다. sentences : “John really reall
텍스트분석 스터디 (1)
해당 글 및 앞으로 이루어질 내용은 한국어 임베딩 이란 책을 공부하고 스터디하며 정리하는 내용 텍스트 분석 임베딩 방법에 있어서 큰 3줄기 가 있음1\. 행렬 분해, 2. 예측, 3. 토픽 기반말뭉치 정보가 들어있는 원래 행렬을 두개 이상으로 쪼갬ex) GloVe, S
NLP_L2_Vectorization_KIY
텍스트를 숫자로 변환하는 벡터화, 그래야 컴퓨터가 알아들을 수 있으니까벡터화 방법으로는(1) 통계와 머신 러닝을 활용한 방법(2) 인공 신경망을 활용하는 방법이번에는 (1)번만 배울 예정이다.단어들의 분포로 문서를 특성을 파악하는 기법이 가방은 중복을 제거하지않고 단어