딥러닝의 핵심인 경사하강법(Gradient Descent)이 전통적인 머신러닝(Linear Regression 등)과 어떻게 궤를 달리하는지 3가지 관점에서 깊이 있게 정리해 드립니다.
전통적인 회귀 분석이 단 한 번의 계산(정규 방정식 등)으로 해를 찾으려 한다면, 딥러닝은 '실수하며 배우는' 방식을 취합니다. 그 핵심이 바로 역전파(Backpropagation)입니다.
딥러닝의 GD는 "정답이 뭔지 모르니, 일단 아무 데나 서보고 낮은 곳으로 움직여보자"는 전략입니다.
- 원리:처음에는 를 아무 숫자(예: 0.01)로 정합니다. (Initialization)
- 현재 로 예측을 해보고 틀린 만큼 오차()를 계산합니다.
- "지금 내 위치에서 를 아주 살짝 키우면 오차가 줄어들까, 줄이면 줄어들까?"를 미분()으로 확인합니다.
- 오차가 줄어드는 방향으로 를 조금 바꿉니다. (Update)
딥러닝 모델은 층(Layer)이 여러 개입니다. 입력층에 가까운 이 있고, 출력층에 가까운 가 있죠. 어떤 를 언제 업데이트할까요?
일반적인 Linear Regression과 Gradient Descent 기반 모델의 결정적인 차이는 "한 번에 끝내느냐, 여러 번 나눠서 하느냐"입니다.
| 비교 항목 | 전통적 Regression (OLS) | Gradient Descent 기반 (Deep Learning) |
|---|---|---|
| 해를 찾는 법 | Closed-form Solution: 수학 공식으로 한 번에 최적의 를 찾음 | Iterative Method: 여러 번의 에포크(Epoch)를 거치며 최적점을 찾아감 |
| 데이터 양 | 데이터가 적을 때 유리 (행렬 연산 가능 범위) | 빅데이터에 필수적: 데이터를 한 번에 메모리에 올릴 수 없을 때 유리 |
| 학습 속도 (Training) | 피처()가 적을 때 매우 빠름. 하지만 피처가 많아지면 역행렬 연산() 때문에 급격히 느려짐 | 상대적으로 느림. 수많은 반복(Iteration)과 오차 역전파 과정이 필요하며 GPU 연산이 필수적임 |
| 추론 속도 (Inference) | 매우 빠름. 학습된 와 새로운 데이터 의 단순 곱셈 () | 매우 빠름. 모델이 무거워도 결국 행렬 곱셈() 기반이라 실시간 응답에 유리함 |
| 특징 | 데이터가 너무 많으면 메모리(RAM) 부족으로 연산 자체가 불가능할 수 있음 | Mini-batch 단위를 사용하여 메모리 효율적으로 거대한 데이터를 나누어 학습 가능 |
"수학 공식으로 한 번에 답 찾기"전통적인 선형 회귀(OLS)는 마치 방정식 를 푸는 것과 같습니다. 우리는 가 라는 걸 계산 한 번으로 알 수 있죠.
딥러닝 모델은 학습은 매우 고통스럽지만, 한 번 배우고 나면 실행(Inference)은 매우 빠릅니다.
| 비교 항목 | 전통적 Regression (OLS) | Gradient Descent 기반 (Deep Learning) |
|---|---|---|
| 해를 찾는 법 | Closed-form Solution: 수학 공식으로 한 번에 최적의 w를 찾음 | Iterative Method: 여러 번의 에포크(Epoch)를 거치며 최적점을 찾아감 |
| 데이터 양 | 데이터가 적을 때 유리 (행렬 연산 가능 범위) | 빅데이터에 필수적: 데이터를 한 번에 메모리에 올릴 수 없을 때 유리 |
| 학습 속도 (Training) | 피처(d)가 적을 때 매우 빠름. 하지만 피처가 많아지면 역행렬 연산 O(d³) 때문에 급격히 느려짐 | 상대적으로 느림. 수많은 반복(Iteration)과 오차 역전파 과정이 필요하며 GPU 연산이 필수적임 |
| 추론 속도 (Inference) | 학습된 w와 새로운 데이터 x의 단순 곱셈 w · x 으로 매우 빠름 (O(d)) | 매우 빠름. 모델이 무거워도 결국 행렬 곱셈 (W · x) 기반이라 실시간 응답에 유리함. 굳이 따지자면 OLS보다는 느리지만 GPU / 최적화 덕분에 실시간으로 충분히 빠름 |
| 확장성 (Scalability) | 제한적. 데이터가 너무 많으면 메모리(RAM) 부족으로 연산 자체가 불가능할 수 있음 | 매우 높음. Mini-batch 단위를 사용하여 메모리 효율적으로 거대한 데이터를 나누어 학습 가능 |
"딥러닝은 엄청난 양의 데이터를 소화하기 위해 '조금씩 자주 먹는(Mini-batch)' 전략을 취하며, 이 과정에서 경사하강법이라는 나침반을 사용한다"