
훈련과 테스트 데이터를 나누는 것은 모델이 훈련 데이터에만 적합하지 않고,
새로운 데이터에 대해서도 잘 작동하는지 확인하기 위한 중요한 과정
훈련 데이터는 모델이 학습하는데 사용되며
테스트 데이터는 훈련이 끝난 모델을 평가하는데 사용한다
이렇게 나누지 않으면 모델이 훈련데이터에만 과도하게 맞춰지는 과대적합(overfitting)이 일어날 수 있다.
과대적합 : 모델이 훈련 데이터에 너무 맞춰져서 다른 데이터에서는 잘 작동하지 않는 상황
과소적합 : 모델이 훈련 데이터 자체도 제대로 학습하지 못해 성능이 떨어지는 경우
RSME는 예측값과 실제값 사이의 차이를 측정하는 지표로, 오차의 크기에 민감한 편이다.
값이 클수록 오차가 더 크다는 것
큰 차이가 나는 오차에 더 많은 패널티를 주고 싶을 때 사용한다.
결정계수는 예측값과 실제값 사이의 관계가 얼마나 일관성이 있는지를 보여주는 것
텐서는 데이터를 다차원으로 표현하는 단위
여러 차원의 배열
스칼라 (0차원) : 하나의 숫자 크기만 있는 값
ex) 1
벡터 (1차원) : 여러 숫자가 일렬로 나열된 배열
ex) [1,2,3]
행렬 (2차원) : 여러 개의 벡터가 모여서 행과 열로 이루어진 배열
ex) [[1,2],[3,4]]
텐서 (3차원 이상) : 행렬을 넘어 더 많은 차원을 가진 배열로, 3차원 이상 데이터를 표현할 수 있다.
ex) 이미지