인공지능(AI)
: 인공지능은 컴퓨터가 인간의 인지적 능력을 모방하는 기술로, 추론, 문제 해결, 학습, 감지, 자연어 처리 등 다양한 작업을 자동으로 수행할 수 있는 시스템을 포함한다.머신러닝(ML)
: 머신러닝은 데이터를 기반으로 컴퓨터가 스스로 학습하여 예측하거나 결정을 내리는 기술이다.딥러닝(DL)
: 딥러닝은 인공신경망을 사용한 머신러닝의 하위 분야로, 복잡한 데이터 패턴을 학습하고 처리하기 위해 여러 층의 신경망(은닉층)을 사용하여 성능을 향상시키는 기법이다.선형회귀
:최소 제곱법
:평균 제곱 오차(MSE)
:경사 하강법
:로지스틱 회귀
는 선형 회귀의 한계점(출력값이 무한대까지 갈 수 있음)을 극복하기 위해 사용된다.시그모이드 함수
란 로지스틱 회귀에서 핵심적으로 사용되는 함수로, 선형 회귀의 예측값을 확률로 변환한다.선형회귀와 로지스틱 회귀의 차이점
- 선형 회귀 : 예측 값과 실제 결과 값의 오차가 제일 작은 최적의 직선을 찾아 입력 값에 대한 예측 값을 찾는 알고리즘
- 로지스틱 회귀 : 출력 값이 0과 1사이의 확률로 나타나며 주로 이진 분류 문제에서 사용되는 알고리즘
- 예시) 스팸 이메일 분류, 질병 유무 진단, 광고 클릭 여부 예측
퍼셉트론
:다층 퍼셉트론(Multilayer Perceptron, MLP)
이 도입되었음다층 퍼셉트론
:다층 퍼셉트론(Multilayer Perceptron, MLP)
:오차 역전파(Backpropagation)
:오차 역전파 알고리즘은 MLP를 학습시키는 중요한 역할을 하지만, 초기 딥러닝 연구에서 큰 문제에 직면하게 된다
그 중 하나가 기울기 소실 문제(Vanishing Gradient Problem) 이다.
기울기 소실 문제
역전파 과정에서 층이 깊어질수록, 즉 은닉층이 많아질수록 오차를 전파할 때 기울기(gradient)가 점점 작아지며, 결국 가중치 업데이트가 제대로 이루어지지 않는 문제가 발생
이 문제는 특히 시그모이드 함수와 같은 비선형 활성화 함수를 사용할 때 심각하게 발생함
ReLU
:ReLU
는 기울기 소실 문제를 완화하고, 특히 깊은 신경망에서 훨씬 효율적으로 학습할 수 있도록 도와줌
ReLU
함수는시그모이드
함수를 보완하기 위하여 등장한 것
- 이진 분류 문제에서
출력 층
에서는 여전히 0과 1사이의 출력을 내야하므로시그모이드
함수가 사용됨
은닉 층
에서ReLU
함수가 사용됨
고급 경사 하강법(Optimizers)
이 도입되었음확률적 경사 하강법(Stochastic Gradient Descent, SGD)
:
전체 데이터가 아닌 랜덤하게 선택된 일부 데이터(미니배치)를 사용하여 가중치를 업데이트함으로써 학습 속도를 향상시킴
매번 일부 데이터를 사용하기 때문에 계산량이 줄고, 더 빠르게 학습할 수 있음
모멘텀(Momentum)
:
경사 하강법이 최적의 값을 찾는 동안 흔들리는 문제(진동)를 해결하기 위해 모멘텀을 사용한다.
모멘텀은 이전 단계의 기울기 정보를 사용해 학습 속도를 더 빠르게 하고, 더 안정적인 경로로 최적화할 수 있게 해줌.
Adam(Adaptive Moment Estimation)
:
Adam은 경사 하강법의 발전된 형태로, 학습 속도와 정확도를 동시에 개선하는 알고리즘
Adam은 학습 속도에 대한 자동 조정 기능을 제공하며, 모멘텀과 학습률을 동시에 고려해 가중치를 업데이트
softmax
:과적합
:
모델이 학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 잘 맞지 않는 것을 의미
과적합의 특징
과적합의 원인
k겹 교차 검증
이 고안되었음
활성화 함수 사용 층 주 사용 상황 설명 ReLU 은닉층 거의 모든 딥러닝 모델 입력이 0 이하일 때 0, 그 외에는 그대로 출력 Sigmoid 출력층 이진 분류 문제 출력값을 0과 1 사이의 확률로 변환 Softmax 출력층 다중 분류 문제 각 클래스의 확률을 계산하여, 확률의 합이 1이 되도록 변환 Tanh 은닉층 비선형 문제 해결 Sigmoid와 유사하지만 -1과 1 사이의 값 출력 Leaky ReLU 은닉층 ReLU의 대체 음수 입력에서도 작은 기울기 부여
손실 함수 주 사용 상황 설명 MSE (Mean Squared Error) 회귀 문제 예측값과 실제값 간의 오차를 제곱하여 평균을 구함 Binary Crossentropy 이진 분류 문제 예측값과 실제값 간의 확률 차이를 계산하여 오차를 구함 Categorical Crossentropy 다중 분류 문제 예측 확률 분포와 실제 확률 분포 간의 차이를 계산
최적화 함수 사용 상황 설명 Adam 대부분의 상황 모멘텀과 적응적 학습률을 결합해 빠르고 안정적인 학습을 제공 SGD 큰 데이터셋, 빠른 학습 필요 데이터 일부만 무작위로 사용하여 학습, 모멘텀을 추가하여 안정성 증가 가능 RMSProp RNN, 시계열 데이터 학습률을 개별적으로 조정하여 안정적 학습