0. 테일러 급수 (Taylor Series)

김재희·2021년 8월 2일
0

개념

목록 보기
1/4
post-custom-banner

이전에 수강한 이상화 교수님의 수리 통계 수업에서도, 이번에 공부하는 최적화 책에서도 테일러 급수가 계속 나온다. 테일러 급수는 복잡한 함수를 간단한 함수로 근사할 수 있게 해주기 때문에 다양한 분야에서 그 쓰임이 다양한 것 같다. 정리하여 내 것으로 만들어보자.

0. 개념

테일러 급수는 매끈한 함수(smooth function)를 제한된 차수의 함수로 근사하여 표현한다. 최적화 이론에서는 복잡한 형태의 목적함수를 특정 범위에서 근사하고 싶다면 테일러 급수를 이용하면 3차 이하의 식으로 표현이 가능해진다.

1. 수식

예를 들어 변수가 x 하나인 f(x)는 다음과 같이 근사할 수 있다.

f(x)=f(a)+(xa)f(a)+(xa)2f(a)2!+...+(xa)rr!drf(x)dxrx=af(x) = f(a) + (x - a)f'(a) + {(x - a)^2f''(a) \over 2!} + ... + {(x - a)^r \over r!} \lceil{d^rf(x) \over dx^r} \rceil_{x = a}

수식을 분해해서 생각해보면
1. a점을 기준점으로 삼고
2. a점을 지나면서 a점과 미분값이 동일한 1차식
3. a점을 지나면서 a점의 이차 미분값과 동일한 2차식

등등으로 차수를 확장하면서 a점에 가까울수록 근사식과 실제 식이 근사하도록 만들고 있는 것을 알 수 있다. 즉, 원래 함수 위의 한 점을 기준으로 해당 점을 지나는 식을 결합하여 본래의 식을 근사하는 것이다.

이는 결국 해당 점에서 멀어질수록 근사치와 실제값의 차이가 커짐을 의미한다. 하지만 최적화 이론에서 지역적 값(local minimum과 같이)을 이용하는 경우가 있기 때문에, 특정 점 근처에서라도 적은 차수로 근사치를 제공하는 것은 훌륭한 도구가 될 수 있다.

테일러 급수는 또한 많은 차수가 필요없다. 왜냐하면 우선 점 a와 가까운 점일수록 각 항의 분자의 값이 제곱되면서 차수가 클수록 매우 작은 값을 가지게 되고, 분모 역시 팩토리얼의 형태로 차수가 클수록 매우 작은 값을 가지게 하기때문이다. 즉, 차수가 클 수록 점 a와 가까운 점일수록 큰 차수의 항이 가지는 영향력이 기하급수적으로 작아진다. 그래서 책에서는 보통 3차식 이하의 항만 이용하여 본래 함수를 근사한다고 한다.

본래 ml dl 분야의 목적함수가 이걸 함수라고 부르는게 맞나 싶을정도로 식이 복잡한데, 이를 테일러 급수를 이용해서 단순화하고(dl은 이마저도 힘든 것 같기는 하다.) 최적화할 수 있다는 발상이 신기한 것 같다. 얼떨결에 최적화 이론을 공부하기 시작했지만, 지금까지 ml dl을 공부하면서 얼렁뚱땅 넘기거나 답답했던 부분들이 많이 해결될 것 같다.


참고

다크 프로그래머님의 블로그 글
3Blue1Brown 테일러 급수 설명 영상
Linear Algebra and Optimization for Machine Learning - Charu C. Arrarwal

post-custom-banner

0개의 댓글