NaïveBayes분류기는 지도학습이라서 라벨을 함께 지정
학습결과가 만족스럽지 못한 이유는 한글의 형태소 분석이 제외되었기 때문이다.
만약 문장을 점처럼 일종의 벡터로 표현할 수 있다면 두 문장 사이의 거리를 구해서 여러 문장 중 가장 유사한 문장을 찾을 수 있을까?
sklearn이 제공하는 문장을 벡터로 변환하는 함수 CountVectorizer
거리를 구하는 것이 목적이므로 라벨 미지정
새로운 테스트용 문장을 만들고 벡터를 만들었으니 거리를 구할 수 있다.
그럼 단순히 단어를 카운트하는 것
더 복잡하게는 형태소를 카운트하는 것
말고는 없을까???
한 문서에서 많이 등장한 단어에 가중치를 주고(TermFreq.)
또 한편으로는 전체 문서에서 많이 나타나는 단어는 중요하지 않게...(InverseDocumentFreq.)
그래서 나타나는 개념 TF-IDF