CountVectorizer

Sunmin Lee·2023년 2월 12일
count_vectorizer = feature_extraction.text.CountVectorizer()

CountVectorizer

: 단어들의 출현 빈도(frequency)로 여러 문서들을 벡터화하는 것

  • scikit-learn
  • NLP 모델 사용시 데이터 전처리 과정에서 자주 쓰임
  • 모두 소문자로 변환시키기 때문에 me 와 Me 는 모두 같은 특성이 되는 단점이 있음

Example
-> 카운팅한 전체 단어에 순서를 매긴 후, 이 문장 속 단어가 몇번쓰였는지 숫자로 나타내줌

0개의 댓글