머신러닝 프로젝트 진행 절차
- 큰 그림을 봅니다 (look at the big picture).
- 풀어야할 문제가 무엇인지?
- 지도/비지도/강화학습 중 어떤경우인지
- 분류 또는 회기문제인지
- 배치학습(한꺼번에 학습), 온라인학습(단계적으로 학습)할 것인지
- 이 모델이 전체 시스템안에서 어떻게 사용될지 이해-
- 현재 솔루션, 어떻게 진행하고 있는지 파악
- 성능지표 선택 : 대표적으로 RSME
- 데이터를 구합니다 (get the data).
- 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다 (discover and visualize the data to gain insights).
- 머신러닝 알고리즘을 위해 데이터를 준비합니다 (prepare the data for Machine Learning algorithms).
- 모델을 선택하고 훈련시킵니다 (select a model and train it).
- 모델을 상세하게 조정합니다 (fine-tune your model).
- 솔루션을 제시합니다 (present your solution).
- 시스템을 론칭하고 모니터링하고 유지 보수합니다 (launch, monitor, and maintain your system).
데이터 전처리 시 효율적인 스킬들
- 데이터를 함수로 만들어 자동변환을하면 나만의 라이브러리가되어 재활용가능하다. 또한 그 함수를 변환해서 다른 기능들도 시도해볼 수 있다.
- 두개이상의 기존 features를 이용해 새로운 feature를 만들어 예측값과 상관관계를 비교해본다.