샘플링 편향?
-> 훈련 세트와 테스트 세트에 샘플이 골고루 섞이지 않은 상태
좋은 학습 모델을 생성하기 어려움
: 파이썬의 대표 배열 라이브러리
=> 샘플링 편향XX
=> 마지막 코드에서 연결할 리스트를 튜플로 전달
튜플?
-> 리스트와 비슷하지만 수정이 불가능
즉, 매개변수의 값으로 많이 사용
TIP! 데이터가 클수록 넘파이 배열을 사용하는 것이 좋음
=> 길이 25cm, 무게 150g인 생선에 가까운 이웃은 빙어가 압도적으로 많음
산점도를 보면 도미와 가깝게 보임
-> distances 배열을 출력해 확인
=> 두 특성(x, y축)의 범위가 달라 이런 일이 생기는 것
=> 스케일이 다르다 라고 말함
=> 이런 오류를 방지하기 위해 특성 값들을 일정 기준으로 맞추는 데이터 전처리 과정 필요
=> 샘플을 동일 기준으로 변환하고 산점도를 그려야 함
=> x, y 축 범위를 보시오!
=> 1은 도미! 도미 예측을 정확히 함
=> 주어진 샘플(세모)와 가장 가까운 샘플은 도미이다.