[Review] 파이썬 텍스트 마이닝 완벽 가이드

윤진호·2022년 8월 4일
0

Review

목록 보기
9/17


텍스트마이닝은 많이 해봤지만 영어, 일본어, 중국어 위주로 진행해왔고 한글 쪽은 진행했던 적이 없었다. 복습 차원에서 다시 한 번 책을 붙잡고 진행해봤다.

교수님이 작성한 책이여서 지나치게 학술적이지 않을 까 좀 걱정했었는 데 비전공자인 나도 이해하기 쉽게 잘 풀어서 작성한 편이었다. 복습 관점에서 다시 찾아본 토큰화, 스테밍, 표제어 추출, 품사 태깅 등은 잘 정리되어 있었고 동의어, 복합명사, 사용자 사전 등의 자료는 없어서 추가로 서칭해서 완료했다. 텍스트 마이닝 전반에 대해서 다루고 있고 다음과 같은 걸 배울 수 있었다.

  • 워드 클라우드
  • 빈도, TF-IDF
  • 나이브 베이즈, 로지스틱 회귀, 결정트리를 통한 문서 분류
  • 차원 축소(PCA, LSA, tSNE)
  • 토픽 모델링
  • 감성 분석(감성사전, 머신러닝)
  • RNN, LSTM, Bi-LSTM을 통한 문서 분류
  • Word2Vec, ELMo, Doc2Vec
  • CNN 문서 분류
  • 어텐션, 트랜스포머
  • BERT

충분히 좋은 책이지만 풀어보는 예제가 친숙한 편이여서 조금 아쉬웠다(영화 리뷰, 20 뉴스그룹 등). BERT 부문은 3장으로 뎁스 있게 쓰신 것 같은데 부족해서 추가로 책을 구입해볼 예정이다

profile
데이터 분석가

0개의 댓글