[Review] 파이썬 텍스트 마이닝 완벽 가이드

윤진호·2022년 8월 4일

Review

목록 보기

9/18

텍스트마이닝은 많이 해봤지만 영어, 일본어, 중국어 위주로 진행해왔고 한글 쪽은 진행했던 적이 없었다. 복습 차원에서 다시 한 번 책을 붙잡고 진행해봤다.

교수님이 작성한 책이여서 지나치게 학술적이지 않을 까 좀 걱정했었는 데 비전공자인 나도 이해하기 쉽게 잘 풀어서 작성한 편이었다. 복습 관점에서 다시 찾아본 토큰화, 스테밍, 표제어 추출, 품사 태깅 등은 잘 정리되어 있었고 동의어, 복합명사, 사용자 사전 등의 자료는 없어서 추가로 서칭해서 완료했다. 텍스트 마이닝 전반에 대해서 다루고 있고 다음과 같은 걸 배울 수 있었다.

워드 클라우드
빈도, TF-IDF
나이브 베이즈, 로지스틱 회귀, 결정트리를 통한 문서 분류
차원 축소(PCA, LSA, tSNE)
토픽 모델링
감성 분석(감성사전, 머신러닝)
RNN, LSTM, Bi-LSTM을 통한 문서 분류
Word2Vec, ELMo, Doc2Vec
CNN 문서 분류
어텐션, 트랜스포머
BERT

충분히 좋은 책이지만 풀어보는 예제가 친숙한 편이여서 조금 아쉬웠다(영화 리뷰, 20 뉴스그룹 등). BERT 부문은 3장으로 뎁스 있게 쓰신 것 같은데 부족해서 추가로 책을 구입해볼 예정이다

윤진호

데이터 분석가

이전 포스트

[Review] 이것이 진짜 크롤링이다 - 실전편

다음 포스트

[Review] 파이썬 텍스트 마이닝 완벽 가이드

Review

[Review] 이것이 진짜 크롤링이다 - 실전편

[Review] XAI 설명 가능한 인공지능, 인공지능을 해부하다

0개의 댓글