

각 뉴런에서 전달된 입력값(xi)이 wi와 곱한 것을 모두 합하고 편향(bias, b)를 더한다. (5단원에서 FC/CNN을 거치는 과정임. 그리고 이 함수는 선형 함수다.) 비선형 함수인 활성화 함수와 연산하여 다음 뉴런으로 나간다.

뉴런의 firing rate를 saturation시키기 때문에 역사적으로 많이 사용되었다.
하지만 뉴런 값이 0과 1에 가까우면 vanishing gradient(기울기를 죽이는) 문제가 있음.

결과값이 지그재그로 이동함. = zero-centered하지 않음
exp()의 계산 비용이 비싸다 (계산 오래걸림)
출력값의 범위: [-1, 1]
zero-centered함
뉴런이 포화되었을 때 그래디언트를 죽임.
양수일 때 뉴런이 포화되지 않아 그래디언트가 죽지 않음
수렴 속도도 빠름.
현재 가장 많이 쓰이는 활성화 함수
not zero-centered
기울기가 음수일 때는 포화되기 때문에 출력이 0이 되어 해당 뉴런이 활성화되지 않는 문제( = dead ReLU)가 발생
어느 곳에서도 그래디언트가 죽지 않음.
negative space에 기울기가 있음.
backpropagation으로 기울기 α를 결정하므로 Leaky ReLU보다 유연함
ReLU와 Leaky ReLU의 중간. ReLU의 모든 장점을 가지지만
복잡한 exp()(비싼 연산)을 계산한다.
ReLU와 Leaky ReLU를 일반화시킨 활성화 함수
w1Tx+b1,w2Tx+b2의 최대값으로 구하기 때문에 선형적인 지역이 나타나므로 뉴런이 포화되지 않고 그래디언트도 죽지 않음
단점: 뉴런당 파라미터가 2배가 됨.
zero-centered data로 만들기
모든 차원이 동일한 범위 안에 있게 해주어 전부 동등한 기여를 하게 함.
하지만 이미지 분석에서는 정규화는 할 필요가 없이 zero-centered 데이터로만 만들면 된다. 입력 이미지는 각 차원이 이미 특정 범위 안에 들어있기 때문

모든 가중치를 0으로 설정하면 모든 뉴런이 같은 일(연산)을 하게 됨. 따라서 출력값은 모두 같고 기울기도 모두 같게 되어 같은 가중치값으로 업데이트된다. (=symmetric breaking이 발생하지 않음.)
우리는 각 뉴런이 다른 가중치 값을 가지길 원함
gaussian의 범위(정규분포로 변환할때?)로 activation을 유지시키는 또 다른 방법.
미니배치(mini-batch)를 단위로 '입력 데이터'의 평균과 분산을 이용하여 정규화.
출력으로 나온 각 뉴런마다 bn을 적용.
reguralization 효과도 줌.
가우시안 표준 정규 분포에서 랜덤으로 뽑은 값을 "입력의 수"로 스케일링. 입출력의 분산을 맞춤
입력에 대한 출력의 변화가 일정 범위에서 거의 일어나지 않는 현상.
데이터 전처리 zero-mean
하이퍼파라미터 조정: cross-validation, grid search