underfitting과 overfitting
variance: 출력이 얼마나 일관적으로 나오는가 (탄착군)
bias: 비슷한 입력에 대해 크게 분산되더라도 평균적으로 정답에 근접
We can derive that what we are minimizing (cost) can be decomposed into three different parts: bias^2, variance, and noise.
내 학습 data에 noise가 껴 있다고 가정을 했을 때 내가 이 noise가 껴 있는 target data를 minimize하는 것은 3가지 파트로 나뉠 수 있음
bias를 줄이게 되면 variance가 높아질 가능성이 커지고 반대의 상황도 동일
근본적으로 학습데이터에 noise가 껴 있을 경우에는 bias와 variance를 둘 다 줄일 수 있는건 얻기 힘듦.
batch size가 512, 1024처럼 크게 되면 sharp minimizer라는 것에 도달하게 됨
small batch size를 활용하게 되면 flat minimizer에 도달
batch size를 작게 쓰는 것이 좋다 (sharp보다 flat이 좋음)
testing function의 minimum을 찾고싶음!
flat minimizer는 generalizing performance가 높다
: 규제
부드러운 함수일수록 generalization perfomance가 높을 것이다.