자연어 처리에서 프리프로세싱이란 실질적인 feature engineering이나 modelling을 하기위한 형태로 corpus를 조작하고 분해하는 등의 모든 전처리작업을 의미합니다.corpus를 word나 sentence의 형태로 나누는 것으로,주로 scipy나 NL

prepocessing기법 중 POS(part-of-speech) tagging, named entity recognition, parsing에 대해서 알아보겠습니다.POS
머신러닝 알고리즘을 적용하기 위해선 자연어의 형태가 아닌 고정길이의 숫자 집합 즉 fixed-length numeric vectors로 존재해야만 합니다.이를 우리는 Vectorization이라 부릅니다.Bag-of-words는 대표적인 초창기 벡터라이제이션 방법 중
TF-IDF(Term Frequency, Inverse Document Frequency)는BoW의 단점 중 하나인 자주 등장하는 용어가 가중치를 받게 된다는 점을 보완하기 위한 다른 벡터라이제션 방법입니다.아이디어는 간단합니다.도큐먼트들의 집합 코퍼스(corpus)가
굉장히 간단한 statistical 모델입니다.여러 분류문제에 사용될 수 있고 기본적인 자연어처리 모델에도 이용될 수 있습니다.분류 : Supervised learning형태(Decision Boundary) : Linear model용도 : Classification
Word2vec Word2vec (Mikolov et al. 2013)은 word vectors를 학습하기 위한 프레임워크 입니다. > [Paper] Efficient Estimation of Word Representations in Vector Space, htt
가장 기본적인 피드포워드 뉴럴넷에 대해 다뤄보도록하겠다.간단하지만 가장 기초가 되는 내용이라 확실하게 학습하는 것이 중요하다.
통상의 피드포워드네트워크는 자연어 squence(each word)들 간의 순서 정보를 반영하기 어렵습니다. 통상 한 도큐먼트의 여러 시퀀스 벡터 정보를 average하는 정도로 구현되는 것이 최선입니다.이로 인해 "Dog bites man"과 "Man bites do