SUPERVISED LEARNING레이블이 정해져있음 = 학습 데이터이 supervised learning은 크게 두가지 문제로 분류된다.UNSUPERVISED LEARNING일일히 우리가 레이블 주기 어려운 경우가 있음, 또는 비슷한 단어들이 모아져있고 그에 대해
Gradient descent 알고리즘 tensorflow 로 구현아래 코드로 대체https://colab.research.google.com/drive/1UMlt29PShlFchI1H0iZoTnnkPRAWtbPz
https://colab.research.google.com/drive/1UMlt29PShlFchI1H0iZoTnnkPRAWtbPz변수를 하나만 설정하는 것보다 여러개를 설정했을 때, 결과값을 더 잘 예측할 수 있기 때문에 multi variable linea
Summary
logistic regression에서는 binary classification만 가능했었다.이를 multi class 구분으로 확장하기 위해 사용되는 것이 softmax이다.Cross entropy 에서는 A or B 로 1,0 or 0,1 로써 서로 구분을 하는거지
L2 Norm
Annealing the learning rate (Decay)셋 다 입력값의 범위를 조정함으로써, 모델의 일반화성능을 높이기 위한 방법.Normalization = 입력값(보통 픽셀값의 범위= 0~255)의 범위를 0~1로 조정.Standardization = 입력값
GD (Gradient Descent)단순 GD의 문제점Stable SGD: Understanding the Role of Training Regimes in Continual Learning (NIPS 2020)ex) object detection하나의 입력 -> 여
딥러닝은 XOR문제에서 답을 선형적으로 구분하는 Line을 찾으려는 노력에서 시작되었다. AND/OR Problem은 linearly 하게 separate할 수 있는 line이 존재한다.하지만 아래와 같은 XOR문제는 선형방정식으로 풀지 못한다. \-> train 불가
\*각각의 network는 logistic regression이라고 가정.=>
target과 모델이 예측한 값의 차이= loss를 뒤로 전달하면서, 각 node의 weigt를 갱신시켜줌!아무리 깊고 복잡한 층으로 구성되어 있다 하더라도 Chain Rule을 활용하여 미분 값을 얻어낼 수 있다.Forward Pass 시 Local Gradient를
gradient => 그래프로 표현 =>매우 작은 gradient값을 전달받아, 계속 곱해지면서, 결국 값이 손실되는 현상 x가 0보다 크면 gradient는 y=x의 기울기 즉 항상 1이다 = 자기 자신의 값을 갖는다=> 잘 전달됨문제: x가 0보다 크면 gradie