[ PT Lecture Review ] Neural Networks, Backpropagation

BING·2024년 8월 7일

[ 개념 정리 ML/DL ]

목록 보기

2/8

💡 [ 요약 ] :

역전파는 손실 함수의 기울기를 계산하여, 이를 이용해 모델의 가중치를 업데이트하는 과정
이때, 각 계층의 출력이 다음 계층의 입력이 되므로, 각 계층의 미분을 체인 룰을 통해 연결해야 함
역전파 과정에서 각 노드는 상류 그래디언트(출력 쪽에서 전달됨)를 받아 로컬 그래디언트와 곱하여 하류 그래디언트(입력 쪽으로 전달됨)
순전파에서는 중간 값을 계산, 역전파에서는 각 파라미터에 대한 그래디언트를 차례로 계산하고 순전파의 계산 순서를 거꾸로 수행

Linear Classifier의 문제를 해결하기 위한 방법 1: Feature Transforms

새로운 특징 공간에서 선형 분류기를 사용할 수 있도록 함

신경망(Neural Networks)

학습 가능한 특징 변환(learnable feature transforms)의 특징을 갖고 있음
신경망은 데이터에서 중요한 특징을 자동으로 학습할 수 있고, 이는 고정된 알고리즘이 아닌 학습 가능한 모델로서, 입력 데이터에 따라 최적화됨

결과: 최종적으로 신경망은 각 클래스에 대한 확률 또는 점수를 산출하며, 이는 이미지가 어느 클래스에 속하는지 예측하는 데 사용
훈련 과정: 이 과정에서 신경망은 입력 데이터와 목표 출력(레이블)을 기반으로 가중치를 조정하며, 정확한 특징 추출과 분류를 학습

1. 신경망의 구조

뉴런(Neurons): 신경망의 기본 단위로, 각 뉴런은 입력을 받고 이를 처리하여 결과를 다음 뉴런에 전달함.
- 입력(Inputs): 뉴런으로 들어오는 신호로, 주로 이전 층의 출력 신호임.
- 가중치(Weights): 각 입력 신호에 곱해지는 값으로, 신경망 학습을 통해 최적화됨.
- 편향(Bias): 뉴런의 출력에 더해지는 값으로, 학습을 통해 최적화됨.
- 출력(Outputs): 활성화 함수를 거쳐 나온 결과 값으로, 다음 뉴런으로 전달됨.
층(Layers): 신경망은 입력층, 은닉층, 출력층으로 구성됨.
- 입력층(Input Layer): 초기 데이터를 받는 층임. 입력 데이터가 이 층으로 들어옴.
- 은닉층(Hidden Layers): 입력층과 출력층 사이의 층으로, 주요 계산이 수행되는 곳임. 여러 개의 은닉층이 있을 수 있음.
- 출력층(Output Layer): 최종 결과를 출력하는 층임. 네트워크의 예측 결과가 이 층에서 나옴.

2. 신경망의 종류

순방향 신경망(Feedforward Neural Networks): 가장 간단한 형태로, 노드 간의 연결이 사이클을 형성하지 않음. 데이터는 입력에서 출력으로 한 방향으로 이동함.
합성곱 신경망(CNN, Convolutional Neural Networks): 주로 이미지 처리를 위해 사용되며, 합성곱 층을 통해 입력을 필터링하여 특징을 추출함.
- 합성곱 층(Convolutional Layer): 필터를 사용하여 입력 이미지의 지역적 특징을 추출함.
- 풀링 층(Pooling Layer): 합성곱 층의 출력을 다운샘플링하여 계산량을 줄이고 특징의 위치 불변성을 유지함.
- 완전 연결 층(Fully Connected Layer): 최종 특징을 사용하여 분류를 수행함.
순환 신경망(RNN, Recurrent Neural Networks): 순차 데이터를 처리하기에 적합하며, 연결이 사이클을 형성하여 정보가 지속적으로 유지될 수 있음.
- 순환 연결(Recurrent Connections): 이전 시간 단계의 출력을 현재 입력에 추가하여, 시간 종속성을 모델링함.
- LSTM(Long Short-Term Memory): 장기 의존성을 학습하기 위해 고안된 RNN의 변형으로, 망각 게이트, 입력 게이트, 출력 게이트를 통해 정보의 흐름을 조절함.
- GRU(Gated Recurrent Unit): LSTM의 간단한 버전으로, 두 개의 게이트(업데이트 게이트, 리셋 게이트)를 통해 정보의 흐름을 조절함.

Linear Classifier의 문제를 해결하기 위한 방법 2:

네트워크의 출력에 비선형성을 추가함으로써, 복잡한 문제를 해결

3. 활성화 함수 (Activation Functions)

Q: What happens if we build a neural network with no activation function?
- linear classifier 로 끝남 즉 문제점 극복을 위해 활성화 함수 필요
종류 및 형태
ReLU (Rectified Linear Unit, 렐루): 입력이 양수일 경우 입력을 그대로 출력하고, 그렇지 않으면 0을 출력하는 함수임.
- 수식:
  f(x)=max(0,x)
- 장점: 계산이 간단하고, 기울기 소실 문제를 완화함.
- 단점: 음수 입력에 대해 모든 출력이 0이 되어, 죽은 ReLU 문제(dead ReLU problem)가 발생할 수 있음.
Sigmoid (시그모이드): 출력이 (0, 1) 사이의 값을 가지며, 이진 분류에 사용됨.
- 장점: 출력이 확률처럼 해석될 수 있음.
- 단점: 기울기 소실 문제(vanishing gradient problem)가 발생할 수 있음.
tanh (하이퍼볼릭 탄젠트): 시그모이드와 유사하지만 출력 값이 -1에서 1 사이임.
- 수식:
  f(x)=tanh(x)=
- 장점: 시그모이드보다 기울기 소실 문제가 덜함.
- 단점: 여전히 기울기 소실 문제가 발생할 수 있음.

5. Space Warping

신경망에서 비선형 데이터를 선형적으로 변환하여 분류 문제를 쉽게 해결할 수 있도록 하는 중요한 기법
- 원래 공간에서 비선형적으로 분리된 데이터는 적절한 특성 변환을 통해 선형적으로 분리 가능하게 됨.
- 신경망의 역할: 신경망의 은닉층은 이러한 특성 변환을 수행하며, 활성화 함수를 사용하여 복잡한 데이터 구조를 단순화함.
  - More hidden units = more capacity 이지만 사이즈를 줄이기 보다는 L2 정규화를 진행하기
- ReLU의 활용: ReLU와 같은 활성화 함수는 비선형성을 도입하여 신경망이 복잡한 데이터를 학습하고 분류할 수 있도록 함.

6. Universal Approximation ( 보편적 근사 )

Universal Approximation 정리는 신경망의 강력한 표현 능력을 나타냄.
신경망은 복잡한 비선형 함수도 근사할 수 있음.
그러나 실제로 네트워크가 '범프'와 같은 특정 구조를 학습하는 것은 아니며, 매끄러운 근사를 통해 기능을 구현함.
- 4개의 은닉층을 RELU 를 통해 BUMP FUNCTION을 만들 수 있음
- 4K의 hidden units 으로는 k bumps의 합을 만들 수 있음
- Gaps between bumps? (범프 사이의 간격?): 범프 사이에 간격이 생기지 않도록 적절한 활성화 함수와 가중치를 선택하는 것이 중요함. 신경망은 이런 간격을 채우기 위해 적절히 매끄럽게 연결되는 형태를 학습함.
- Other nonlinearities? (다른 비선형성?): ReLU 외에도 시그모이드(sigmoid), 탄젠트 하이퍼볼릭(tanh) 등 다양한 비선형 활성화 함수를 사용할 수 있음.
- Higher-dimensional functions? (고차원 함수?):
```
  고차원 함수는 더 많은 은닉 유닛과 층을 필요로 할 수 있음. 고차원 데이터에서는 네트워크의 복잡성을 증가시켜야 하지만, 이론적으로는 여전히 근사 가능함
```
7. Nonconvex Optimization
신경망에서 비컨벡스 최적화의 필요성:
- 손실 함수의 그래프가 여러 개의 지역 최소값(local minima)과 복잡한 표면을 가질 수 있음을 의미
- 손실 함수가 단순한 볼록(convex) 함수처럼 하나의 전역 최소값(global minimum)만 가지는 것이 아니라, 여러 최적화 지점이 존재할 수 있음
수렴에 대한 보장 없음 (Few or no guarantees about convergence):
- 알고리즘이 하나의 지역 최적해(local optimum) 또는 안장점(saddle point)에 멈출 수 있음
경험적으로 작동함 (Empirically, it seems to work anyway):
- 다양한 최적화 기법과 기술을 통해 원하는 성능에 도달할 수 있음

역전파(Backpropagation)

1. 역전파

역전파(Backpropagation): 신경망 학습에서 가장 중요한 알고리즘 중 하나로, 출력에서 입력 방향으로 기울기를 계산하여 가중치를 업데이트하는 방법임. 이를 통해 손실 함수의 값을 최소화함.

2. 역전파의 원리

순방향 전파(Forward Propagation): 입력 데이터를 받아 각 층을 통해 출력을 계산하는 과정임.
역방향 전파(Backward Propagation): 출력에서 입력 방향으로 기울기를 계산하여 가중치를 업데이트함.

3. 역전파의 계산 과정

순방향 계산: 입력 x로부터 출력을 계산함 ⇒ Compute outputs
손실 함수 계산: 예측 값과 실제 값 간의 오차를 계산함
역방향 계산: 출력에서 입력 방향으로 각 가중치에 대한 기울기를 계산함.

4. 체인 룰과 손실함수의 기울기 계산

체인 룰(Chain Rule): 역전파의 핵심은 체인 룰을 사용하여 각 변수의 기울기를 계산하는 것임.
- 다운스트림 그래디언트 = 로컬 그래디언트 X 업스트림 그래디언트(현재 노드로 들어오는 그래디언트 값)
  - [Downstream] = [Local] * [Upstream]
- 수식:
예 : 시그모이드 역전파
특정 연산(예: 시그모이드 함수)에서 기울기 계산하는 과정
전파(backpropagation) 과정을 통해 손실 함수의 기울기(gradient)를 계산하는 예제

5. 벡터를 사용한 역전파 (Backpropagation with Vectors)

벡터 미분의 개념: 벡터 미분은 각 입력 요소의 작은 변화가 출력 벡터의 각 요소에 미치는 영향을 계산하는 방법으로, 결과는 자코비안 행렬로 나타남.
- 자코비안 행렬은 출력 벡터의 각 요소에 대한 입력 벡터의 미분을 포함하며, 이는 역전파 과정에서 중요한 역할을 함.
역전파의 구체적인 예: 함수 f(x)=max⁡(0,x)의 경우, 입력 벡터 x가 주어지면, 출력 벡터 y와 이에 대한 그래디언트 ∂L/∂y가 계산됨.
- 이때 자코비안 행렬과 그래디언트의 곱을 통해 입력 벡터에 대한 그래디언트 ∂L/∂x를 얻을 수 있음.

5-1. 자코비안 행렬(Jacobian matrix):

역전파는 손실 함수의 기울기를 계산하여, 이를 이용해 모델의 가중치를 업데이트하는 과정
- 이때, 각 계층의 출력이 다음 계층의 입력이 되므로, 각 계층의 미분을 체인 룰을 통해 연결해야 함
자코비안 행렬(∂x/∂y)에 대한 디테일한 설명:
- 역전파 과정 시 체인 룰을 통해 기울기를 전파하는 데 필수적인 요소
- ReLU 활성화 함수를 사용한 후, 역전파 과정을 통해 손실 함수의 기울기를 계산
  - ReLU 함수의 자코비안 행렬은 대각선에 0 또는 1을 가지며, 비대각선은 모두 0
    - 이 행렬은 입력 x의 변화가 출력 y( 출력 벡터의 각 성분)에 어떻게 영향을 미치는지를 나타냄
    - ReLU의 특성상, 양수였던 입력값에 대해서는 기울기 1을 가지며, 음수였던 입력값에 대해서는 기울기 0을 가짐. 여기서는 첫 번째와 세 번째 원소만 1이고, 나머지는 0
Downstream Gradient (∂x/∂L):
- 입력 x에 대한 손실 함수 L의 기울기
- 이는 Upstream Gradient와 자코비안 행렬의 곱으로 계산
최종적으로, ∂x / ∂L는 [4, 0, 5, 0]이 됨
- 이는 입력 x의 각 원소에 대해 손실 L의 변화량을 나타내며, 이 값을 이용해 신경망의 가중치를 업데이트
- 이 과정을 통해 신경망이 학습하며, 출력과 실제 값 간의 오차를 최소화하기 위해 가중치를 조정

5-2. 행렬 곱셈을 사용한 예 (Matrix Multiplication Example)

dy/dx2,3는 가중치 행렬 w의 세 번째 행의 값을 의미
행렬 곱셈의 역전파
- 그래디언트 계산: 행렬 곱셈의 경우, 손실 함수에 대한 그래디언트를 계산할 때 각 입력과 출력 요소가 미치는 영향을 반영입력 행렬 X에 대한 손실 함수 L의 그래디언트 계산
  - 1) 주어진 입력 행렬 x와 가중치 행렬 w를 사용하여 출력 행렬 y 계산
  - 2) 손실 함수의 그래디언트 ∂L/∂y에 대해 입력 행렬 x와 가중치 행렬 w에 대한 그래디언트를 계산하는 과정으로 구성
N: 행렬의 행, D: 행렬의 열
- 각 입력이 손실에 얼마나 기여하는지
- 가중치 행렬 w에 대한 손실 함수 L의 그래디언트 계산
  - 가중치가 손실에 얼마나 기여하는지

5-3 .역전파의 또 다른 관점 (Backpropagation: Another View)

연쇄 법칙: 역전파의 핵심은 연쇄 법칙을 활용하여, 출력에서부터 입력으로 그래디언트를 전파하는 과정임
- 이는 컴퓨팅 그래프에서 각 노드가 로컬 그래디언트를 계산하고, 이를 사용하여 상류 그래디언트를 곱해 하류 그래디언트를 계산하는 방식으로 구현됨.

5-4. 자동 미분 (Automatic Differentiation)

Reverse-Mode: 역전파는 종종 reverse-mode 자동 미분으로 불리며, 이는 스칼라 출력에 대한 벡터 입력의 그래디언트를 효과적으로 계산함
- 이는 신경망 훈련에서 일반적으로 사용됨.
Forward-Mode: 전방향 자동 미분은 벡터 입력에 대한 스칼라 출력의 그래디언트를 계산하는 데 유용함.
- 이는 파라미터가 적고 입력이 많은 상황에서 유리함.

[ 질문 ]

Reverse-mode 즉 역전파를 통해 손실함수의 파라미터를 업데이트 한다는것은 이해가 되는데, Forward-Mode를 통해 스칼라 입력에 대한 벡터 출력의 기울기를 계산할 필요가 있는가 ? 이유는 ?
역전파 알고리즘에서 기울기를 계산하는 방법이 자코비안 행렬을 명시적으로 계산하는것과 로컬 그래디언트와 업스트림 그래디언트를 곱하여 다운스트림 그래디언트를 계산하는 방식 2가지가 있는건거?
인풋과 아웃풋이 벡터인 경우 : 자코비안
인풋과 아웃풋이 매트릭스인 경우 : 업스트림 정보는 아는데 다운스트림 어떻게 쓸꺼냐?? 가 중요한 논정
스칼라에서는 로컬 그래디언트를 알기 때문에 다운스트림 그래디언드 계산 가능. (dL은 로컬 그래디언트. 행렬은 강의에서 예시로 주어짐).
- 로컬 그래디언트는 행렬에서는 벡터의 하나의 값에 대한 정보임
- 행렬 통째는 안되지만 벡터의 한자리에는 값 구할 수 있음. 즉 휴리스틱하게 구하면 => 그러면 체인룰을 이용해서 행렬곱으로 구할 수 있겠다는 아이디어
- 이 두개 행렬 곱이 로컬 그래디언트가 될 수 있음

참고 강의 :

BING

[ SPS Lab Paper Seminar YouTube ] : https://www.youtube.com/@spslab.1648

다음 포스트