규칙 기반 모델
• 적은 양의 데이터로 일반화 가능
• 결론 도출의 논리적 추론 가능
• 학습에 필요한 데이터가 비교적 적게 필요
• 이를 제작한 전문가의 실력을 넘어서기 매우 어려움
• 해당 전문가의 오류를 동일하게 반복
• 규칙 구축에 많은 시간과 비용 소요
• Toy task에 주로 적용되었음
딥러닝 기반 모델
• 학습에 사용할 데이터의 질이 좋고 양이 많으면 인간의 실력을 넘어설 수 있음
• 인간이 생각하지 못한 새로운 방법을 사용할 수 있음
• 기본적으로, 많은 데이터가 필요함
• 논리적 추론이 아닌 귀납적 근사에 의한 결론 생성 • 결과에 대한 해석의 어려움
• 규칙 구축에 많은 시간과 비용 소요
• 손실 함수(loss function)는 모델의 예측과 정답 사이의 차이를 수치화시켜주는 함수
• 이를 통해 모델의 성능을 측정하고, 이를 기반으로 모델을 개선할 수 있음
• 손실 함수의 값을 각각의 파라미터들에 대해 편미분하면 그래디언트(gradient)를 계산할 수 있음
• 그래디언트는 손실 함수의 기울기를 나타내며, 이를 통해 파라미터를 어떻게 수정해야 손실을 줄일 수 있는지 알 수 있음
• 그래디언트에 따라 파라미터들을 수정하면, 현재 입력에 대한 모델의 예측이 정답에 가까워짐
• 이는 그래디언트가 손실을 줄이는 방향을 가리키기 때문임
• 이러한 과정을 모든 데이터에 대해 반복적으로 적용
• 이를 통해 모델의 모든 파라미터를 최적화하고, 전체적인 성능을 향상시킬 수 있음
• 딥러닝 모델에서 손실 함수에 대한 입력층의 그래디언트는 편미분의 특성상 한 번에 계산할 수 없음
• 각 계층의 출력이 다음 계층의 입력으로 사용되기 때문임
• 손실 함수에 대한 출력층의 그래디언트를 계산하고, 이로부터 다시 이전층의 그래디언트를 계산하는 방식으로 연쇄 법칙 (chain rule)을 이용
• 출력에서 입력으로 계산이 역방향으로 진행되기 때문에 역전파(back-propagation)라고 함
• 모델의 파라미터를 손실을 줄이는 방향으로 업데이트하는 데 사용됨
• 딥러닝 모델의 학습에는 미분값이 큰 영향을 미치며, 손실 함수로부터 편미분값을 계산할 수 있는 가중치들만 역전파 알고리즘을 이용하여 값을 학습할 수 있음