오늘의 학습 리스트
미니프로젝트
(사실 오늘 노드는 Fundamental로 진행됐지만 exploration 같았다)
- 웹사이트 텍스트 크롤링
- 크롤링 데이터 정제
- html tag 같은 거 제외하기
- 토큰화
- 한국어 형태소 분석기(Mecab, KonLPY) 등을 쓰면 형태소(?) 단위로 토큰화 됨
- 궁극적으로 tf-idf 벡터로 토큰화된 단어들 바꾸기
- 그런데 tf-idf로 바꾸기 전에 CountVectorizer()로 sparse matrix를 생성했다.(그거를 다시 tf-idf 벡터로 바꿈)
- 모델 생성 및 훈련
- 이 때 나이브 베이즈 분류기 사용(왜 콕 찝어 이걸 사용했는지는 모르겠음)
- 이 때 훈련은 카테고리 분류로 이루어진다.
- 예측
- 예측하려는 뉴스 기사 string 준비
- 해당 string을 위와 같은 전처리 동일하게 해주기(함수 만들어서 사용하면 됨)
- 그리고 예측