Tensorflow - 구글이 공개한 머신러닝 오픈소스 라이브러리
Keras - 딥러닝 프레임워크인 Tensorflow에 대한 추상화 된 API 제공
Gensim - 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈소스 라이브러리
Scikit-learn - 파이썬 머신러닝 라이브러리
Jupyter Notebook - 웹에서 코드를 작성하고 실행 할 수 있는 오픈소스 웹 어플리게이션
KLTK - 자연어 처리를 위한 파이썬 패키지
KoNLPy - 한국어 자연어 처리를 위한 형태소 분석기 패키지
Pandas - 파이썬 데이터 처리를 위한 라이브러리
Numpy - 수치 데이터를 다루는 파이썬 패키지
Matplotlib - 데이터를 차트나 플롯으로 시작화하는 패키지
1) 수집(Acquisition) - 학습을 시킬 데이터 수집
2) 탐색적 데이터 분석(Exploratory Data Analysis, EDA) - 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정
3) 전처리 및 정제(Preprocessing and Cleaning) - 자연어 처리에서는 토큰화, 정제, 정규화, 불용어 제거 등을 다계에 포함
4) 모델링 및 훈련(Modeling and Training) - 알고리즘을 선책하여 모델링 후 전처리 된 데이터로 학습
5) 평가(Evaluation) - 테스트 데이터로 성능 평가
6) 배포(Deplyment) - 배포, 모델 업데이트 상활시 수집 단계로 돌아가기
당신의 시간이 헛되지 않는 글이 되겠습니다.
I'll write something that won't waste your time.