큰 그림 그리기.
데이터 구하기.
데이터 시각화로 통찰 얻기.
학습용 데이터 준비.
모델 선택 및 훈련.
모델 조정(fine-tuning).
모델을 기반으로 솔루션 제시.
시스템 런칭 및 유지 보수.
좋은 모델을 만들기 위해서는 전체 데이터셋 중 20%는 테스트용으로 분리하는 것이 좋음.
train_dataset, test_dataset = split_train_test(dataset, 0.2)
처럼 full-refresh 처럼 분리하는 것보다는 데이터의 identifier를 활용해서 하는 것이 좋음.crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32
처럼 식별자의 해싱 개념으로 활용 가능.train_test_split()
이라는 함수로 데이터 분할이 가능함.데이터 정제(data cleaning).
- 누락된 특성 다루기. (해당 행 제거 및 해당 열 제거(비추), 어떤 값으로 채우기(추천) 등)