포워드는 로스 처리를 포함하지 않는다
회귀함수에서 로스, 손실 함수 처리
항등함수 : 회귀모델의 최종층에 사용
Softmax 변환 : 분류모델의 최종 층에 사용
지수화, 정규화
1) 확률 분포 생성 출력 값들이 0과 1 사이의 값으로 변환
2) 이 값들의 합이 1이 되도록 합니다.
가장 가능성 높은 클래스 선택
32비트, 64비트
64비트가 2배 빠릅니다
자연상수 2의 1000제곱을 한다면?
너무 높은 출력값 사용시, NaN이 나오는 현상
입력 신호 중 최대값을 빼준 후
Softmax를 적용하여 해결 가능
단조 증가 : 계속해서 증가, 구부러짐 없이 증가
t train 태그값이 쭉 있음
정답이 한 줄로 쭉 이어져 있음
flatten 일렬로 펴서 가져오기
입력노드는 28x28로 784개
신경망 결과 a
softmax 변환
y 확률
손실이 있는 경우, 앞에 신경망을 새롭게 학습
뼈대에 영혼을 불러넣는다
가중치와 편향
확률값 최대값max
argmax 인덱스 역할 index
np.max 최대값
np.argmax 최대값의 인덱스
one hot encoding
t[i] = [000000 ...1]
tFalse = 9
배치 코드는 덩어리로 처리
손실함수
1. 오차 제곱합 : MSE 와 유사
오차 제곱합 : sum, 1/2
미분 경사하강법을 위해 1/2 곱해줍니다
Mean Squared Error : 1/n
오차제곱합, SSE
y : 최종 결과값
tk :정답
왜 손실 함수를 설정하는가?
손실함수의 값을 가능한 한 작게 하는 매개변수 값
매개변수의 값을 서서히 갱신하는 과정을 반복함
미분값이 0이면 더 이상 학습하지 않는다
정보이론
엔트로피 : 정보의 불확실성
안정성이 높다, 낮다
확실성이 높다 : 일상적인 사건, 확률이 1에 가깝다
불확실성이 높다 : 확률이 0에 가깝다, 확률은 낮다
확률과 정보량이 역수 관계이다
정보량 :
3mb 압축시 100kb 작게 압축됩니다
실제 정보량은 굉장히 작다는 의미
8비트는 2의 8제곱 정보를 담을 수 있습니다
확률에서의 정보량:
엔트로피와 반대
평균이 기대값
확률의 역수가 정보량
교차 엔트로피 오차 :
무한대 오류 방지
미니 배치
한 덩어리를
미니배치 학습
미분은 변화량이다
접선의 기울기 미분
x에서의 기울기를 구하기 위해서는
x+h 에서 h를 가장 작은 값으로 바꿔야 합니다
h를 작은 값으로 잡아야 합니다
기울기가 가장 유사하게 구하기 위함입니다
10의 -4~-5 제곱으로 잡아야 합니다
함수 f(x)의 기울기를 계산하고, 그 기울기를 따라 조금씩 이동하여 함수의 값을 줄여나갑니다.