Word2Vec의 대중화 이전에, 텍스트의 분포를 활용하여 텍스트를 벡터화하는 아이디어를 들여다보자. 단어 빈도를 이용한 벡터화(1) Bag of Words(2) Bag of Words 구현해보기(3) DTM과 코사인 유사도(4) DTM의 구현과 한계점(5) TF-
자음의 범위 : ㄱ ~ ㅎ모음의 범위 : ㅏ ~ ㅣ완성형 한글의 범위 : 가 ~ 힣한글, 공백을 제외한 모든 문자를 표현하는 regex : \[^ㄱ-ㅎㅏ-ㅣ가-힣 ]케라스로 원-핫 인코딩 간단히 해보자여기서 단어장 크기에 +1을 해준 이유는, 0번 단어에 패딩토큰을 넣