텍스트마이닝은 많이 해봤지만 영어, 일본어, 중국어 위주로 진행해왔고 한글 쪽은 진행했던 적이 없었다. 복습 차원에서 다시 한 번 책을 붙잡고 진행해봤다.
교수님이 작성한 책이여서 지나치게 학술적이지 않을 까 좀 걱정했었는 데 비전공자인 나도 이해하기 쉽게 잘 풀어서 작성한 편이었다. 복습 관점에서 다시 찾아본 토큰화, 스테밍, 표제어 추출, 품사 태깅 등은 잘 정리되어 있었고 동의어, 복합명사, 사용자 사전 등의 자료는 없어서 추가로 서칭해서 완료했다. 텍스트 마이닝 전반에 대해서 다루고 있고 다음과 같은 걸 배울 수 있었다.
충분히 좋은 책이지만 풀어보는 예제가 친숙한 편이여서 조금 아쉬웠다(영화 리뷰, 20 뉴스그룹 등). BERT 부문은 3장으로 뎁스 있게 쓰신 것 같은데 부족해서 추가로 책을 구입해볼 예정이다