분류에 쓰이는 손실함수
1.Binary cross entropy
2.categorical crossentropy(001, 010, 100)
3.sparse_categorical_crossentropy(0,1,2)
*categorical, sparse_categorical 차이: label이 정수일때 원핫 인코딩의 차이
출처: https://stackoverflow.com/questions/41990250/what-is-cross-entropy
실제 분포 q(x)에 대해서 알지 못하는 상황에서 모델링을 통해서 구한 분포인 P(x)를 통해 q(x)를 예측하는 것
그래서 크로스 엔트로피에서 실제값=예측값이면 0으로 수렴하고
실제값=!예측값이면 값이 커진다.
예) true/false, 양성/음성
가중치를 수정할때는 weights-(learning*gradient) = new weights 이런 방식으로 진행함
이게 왜 문제냐면?
작은데이터에선 문제되지 않는데 1억건의 데이터를 하나씩 가중치를 수정하는게 시간낭비임
이문제를 해결하기 위해 "확률적 경사 하강법"이 나옴
*로컬 미니멈의 문제도 있긴한데..이건 확률적 경사 하강법에서도 나타나는 문제임 그래서 모델을 다시 돌리던 다른 방향을 모색해야함
출처: https://wjddyd66.github.io/dl/NeuralNetwork-(3)-Optimazation2/
장점: 가중치를 빠르게 업데이트 할 수 있음
단점: 불안정한 경사하강
출처: https://yngie-c.github.io/deep%20learning/2020/03/19/training_techs/
그림 오른쪽을 보면 완전 지그재그로 가고 있음= 불안정하게 찾아간다는 것
출처: https://thebook.io/080263/ch04/02/03-05/
예시: 공무원 시험 준비 중이고 매뉴얼대로 공부를 했는데 역사에서 점수가 낮게 나왔다.(순전파)
역사의 원래 맞아야하는 점수와 내 점수를 비교했더니 일제강점기 부분에서 많이 틀렸음(손실함수)
일제강점기 부분을 좀더 보완해서 공부하고 시험점수를 높임(역전파)