머신러닝 알고리즘 구분
샘플링 편향 : 훈련세트와 테스트 세트가 골고루 섞이지 않고 특정 기준으로 정렬된 상태의 데이터
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify=fish_target, random_state=42)
데이터 전처리(data prepocessing)
거리기반 알고리즘(K-최근접이웃 등)에서 각 특성을 일정한 기준으로 맞추는 등 훈련 전에 데이터를 가공하는 행위
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify=fish_target, random_state=42)