이 자료는 인공지능 교육 비영리단체 OUTTA 에서 출판한 《인공지능 교육단체 OUTTA 와 함께 하는! 머신러닝 첫 단추 끼우기》 를 바탕으로 제작되었습니다. Remnote 자료의 경우 링크를 통해 확인하실 수 있습니다.
1. Rn 공간과 함수
1.1. Rn 공간과 벡터 ( n 차원 유클리드 공간)
-
곱집합 ⇔ X×Y={(x,y):x∈X,y∈Y}
-
Rn ⇔ 실수로 구성된 n 차원 벡터의 집합, {(x1,x2,⋯,xn):x1,x2,…xn∈R}
-
Vector Space ⇔ 원소들 간의 합과 상수배가 정의된 공간
-
벡터 연산
-
벡터의 경우 볼드체로 표기한다.
-
벡터의 덧셈 : x+y=(x1+y1,x2+y2,⋯,xn+yn)
-
벡터의 상수배 : cx=(cx1,cx2,⋯,cxn)
-
벡터의 뺄셈 : x−y=x+(−1)y
-
벡터의 나란함 : 두 벡터 x,y가 나란 ⇔ ∃s,t∈R s.t. sx=ty
-
내적과 노름
-
(Norm) ∣∣x∣∣=x⋅x
-
(Inner product) x⋅y=x1y1+x2y2+⋯xnyn=i=1∑nxiyi
-
(Inner product with angle) x⋅y=∣∣x∣∣∣∣y∣∣⋅cosθ
-
내적과 노름 사이의 관계에 관한 부등식
-
코시-슈바르츠 부등식
(x⋅y)2≤∣∣x∣∣2∣∣y∣∣2
-
등호 성립 조건 ⇔ x//y
-
Proof) y가 영벡터 일 때는 임의의 x와 나란하고, 등호가 성립한다.
y가 영벡터가 아니라 가정하자. 그러면 임의의 실수 t∈R에 대해 ∣∣x+ty∣∣2≥0 가 성립하므로, 다음 이차식
∣∣x+ty∣∣2=∣∣ y∣∣2t2+2(x⋅y)t+∣∣x∣∣2
의 판별식은 0 이하이다. 즉,
D/4=(x⋅y)2−∣∣x∣∣2∣∣y∣∣2≤0
이 성립한다. 이 때, 등호가 성립하기 위해서는 이차식의 값이 0이 되어야 한다. Norm 의 성질에 의하여,
∣∣x+ty∣∣2=0⇔x+ty=0
가 성립하여야 한다. y가 영벡터가 아니고, x와 y가 나란하면 위의 식을 만족시키는 t가 유일하게 존재하므로 등호가 성립한다.
-
삼각 부등식
∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
1.2. 다변수함수와 다변수 벡터함수
-
함수 : 두 집합 사이의 대응관계
-
다변수 함수
2. 행렬과 선형사상
2.1. 일차함수
-
f(x1,x2,⋯,xn)=a1x1+a2x2+⋯anxn+b
-
벡터로 표현된 Rn 의 일차함수
-
f(x)=a⋅x+b (단, a=(a1,a2,⋯,an),x=(x1,x2,⋯,xn) )
-
ai : xi 방향 기울기
-
함수의 덧셈과 스칼라 곱
2.2. 선형사상과 행렬
-
선형사상 : L(x+cy)=L(x)+cL(y) 을 만족하는 사상 L (단, c∈R)
-
L:Rn→R 의 경우, L(x)=a⋅x 로 표현 가능 (a,x∈Rn)
-
"사상은 변환이다"
-
다변수 벡터함수에서의 선형사상 (L:Rn→Rm)
-
L(x)=a1x1+a2x2+⋯anxn , 각 변수의 차원은?
-
ai=L(ei)
-
행렬과 선형사상 : L(x)=Ax
2.3. 함수의 합성과 행렬의 곱
-
L1:Rl→Rr, L2:Rn→Rm 일 때 (L1∘L2)(x) 은? (대응 행렬은 각각 A,B)
-
전치행렬과 대칭행렬
-
A∈Rm×n 에 대해, Aij=aij 의 전치행렬 AT 는 AijT=aji 를 만족
-
대칭행렬 : A=AT 인 행렬 A
-
내적과 행렬곱
3. 미분
3.1. 미분과 선형사상
3.1.1. 일변수함수의 미분
-
미분계수
f′(x0)=x→x0limx−x0f(x)−f(x0)
-
미분 가능 함수 : 정의역의 모든 점에서 미분계수가 존재하는 함수
-
도함수
f′(x)=h→0limhf(x+h)−f(x)
-
미분계수의 기하하적 의미 : 접선의 방정식을 의미
-
y=f′(x0)(x−x0)+f(x0)
-
Proof)
limx→x0x−x0f(x)−[f′(x0)(x−x0)+f(x0)]=limx→x0(x−x0f(x)−f(x0)−f′(x0))=f′(x0)−f′(x0)=0
-
'근사' 로서의 미분 : 그 함수와 가장 가까운 일차함수를 찾게 해주는 도구
3.1.2. 다변수함수의 미분
-
미분계수 f′(x0) (=Df(x0)) :
x→x0lim∣∣x−x0∣∣∣f(x)−(aTx+b)∣=0
을 만족시키는 벡터 aT
-
미분가능 조건 : 벡터 a,b 가 존재
3.1.3. 다변수 벡터함수의 미분
-
미분계수 f′(x0) (=Df(x0)) :
x→x0lim∣∣x−x0∣∣∣f(x)−(Ax+b)∣=0
을 만족시키는 행렬 A
-
미분가능 조건 : 행렬 A, 벡터 b 가 존재
3.1.4. 함수의 연속
3.2. 다변수함수의 미분
3.2.1. 편미분 (Partial Derivative)
-
다변수함수 f:Rn→R에 대해, 점 x0=(x1,x2,⋯,xn)T 에서의 i번째 편미분계수
∂xi∂f(x0)=x→xilimx−xif(x1,⋯,x,⋯,xn)−f(x1,⋯,xi,⋯,xn)=h→0limhf(x0+hei)−f(x0)
-
다변수함수 f:Rn→R에 대해, i번째 편도함수
∂xi∂f(x1,⋯,xn)=x→xilimhf(x1,⋯,xi+h,⋯,xn)−f(x1,⋯,xi,⋯,xn)
- 편도함수의 기호 : Dif,fi,∂xi∂f
3.2.2. 그래디언트 벡터 (Gradient Vector)
3.3. 연쇄법칙 (Chain Rule)
-
dxd(g∘f)=i=1∑n∂xi∂gdxdfi
Theorem 5 (Chain Rule)
함수 f:Rn→Rm 가 x0 에서 미분가능하고, 함수 g:Rm→Rr 가 f(x0) 에서 미분가능할 때, 그 합성 g∘f 는 x0 에서 미분 가능하고 다음이 성립한다.
(g∘f)′(x0)=g′(f(x0))f′(x0)=Jg(f(x0))Jf(x0)
3.4. 다변수함수의 최적화
3.4.0. 최적화 (Optimization) : 함수의 값을 최소화 혹은 최대화하는 작업
3.4.1. 극대와 극소
- 임계점정리의 역은 성립하지 않음 : 안장점이 존재할 수 있기 때문
3.4.2. 방향미분계수
-
가장 가파른 증가/감소 방향
-
∣Dvf(x0)∣≤∣∣∇f(x0)∣∣
-
가장 가파른 증가 방향 : Dvf(x)가 가장 큰 v ⇔ ∇f(x0)/∣∣∇f(x0)∣∣
-
가장 가파른 감소 방향 : Dvf(x)가 가장 작은 v ⇔ −∇f(x0)/∣∣∇f(x0)∣∣
References
[1] 인공지능 교육단체 OUTTA 와 함께 하는! 머신러닝 첫 단추 끼우기, OUTTA, 2022
[2] 미적분학 1+, 김홍종, 서울대학교출판문화원, 2016
[3] 미적분학 2+, 김홍종, 서울대학교출판문화원, 2016
[4] 해석개론, 김성기, 김도한, 계승혁, 서울대학교출판문화원, 2011