Day 27 (23.08.23)
파이썬 EDA 3일차입니다.
어제 못다한 공공데이터를 이용한 EDA실습이 이어졌다. 실습의 마지막 부분인 WordCloud이 메인이었는데 예전에 교수님 회사에 잠시 들어가 했던 NLP 프로젝트의 전처리를 하기 위해 처음 공부했던 내용들이 기억나 아주 반가웠다. 역시나 아주 기초적인 내용만을 언급한다고 해도 꽤나 시간이 들어가게 되었다. NLP 데이터를 다루게 된다면 자연어의 구조와 그 문법들, 품사가 가지는 맥락적인 부분들... 다양하게 신경써야할 부분들이 생각나게 되었다. WordCloud는 비교적 심플한 텍스트마이닝 축에 속하지만 (개인적으로 추후에 나올 NLP 과정에 비한다면..) 그래도 기초적인 부분들에 대해서는 뒤의 과정과 연계된다고 생각해 재미있게 들었던 것 같다.
생각나는 점이라면 오늘 새로 배우게 된 mecab의 파이썬 버젼 라이브러리 pecab의 실행속도가 좀 오래 걸린다는 것이다. 아예 GPU를 사용하는 과정이 아니다 보니 코랩에서 속도가 더디게 나왔다. 이전의 데이콘때 model training의 안좋은 추억이 떠오르는 것 같았다.
그리고 드디어 ML계의 iris같은 데이터 titanic 데이터를 가지고 실습하게 되었다. 이전에 데이콘 때에 했던 초반 EDA 과정과 비슷하게 흘러가 재미있었다. 시간상 강의가 초반부분에서 멈췄지만 내일 더 재미있게 데이터를 다뤄볼 수 있을거 같다.
TIL