실수 x vector가 입력으로 주어질 때 output y를 예측하는 시스템을 설계하는 것
y^=wTx
y^: prediction
w: 학습해야 하는 parameters
x: input
What will be
Experience: training set (X(train),Y(train))
주어진 training data
Task: linear regression
training data를 가장 잘 표현하는 선형 모델을 예측하는 것
(Xtrain,Ytrain)를 기반으로 MSEtest를 최소화하는 방향으로 w를 개선하는 것
Performance measure: mean squared error MSEtest=m1∑i(y^(test)−yi(test))2
Why should we consider MSEtest for performance measurements, instead of MSEtrain?
train data에서 잘 수행되었다고 해서 새로운 data에서도 잘 동작하는 것은 아니다. MSEtrain은 모델이 train data에 얼마나 잘 적합되었는지 나타낸다. 실제 성능을 평가하는 것은 MSEtest이다.
Solution by optimization for reducing the training error
argminm1∥y^train−ytrain∥22
L2 normarization(euclidean distance)
∇wm1∥y^train−ytrain∥22=0
오차를 최소로 하는 w
∇w∥Xtrainw−ytrain∥22=0
y^=wTX
∇w(Xtrainw−ytrain)T(Xtrainw−ytrain)=0
w=(XtrainTXtrain)−1Xtrainytrain
Probability and Information Theory
Probability
Machine learning은 항상 확률적으로 표현된다.
같은 입력에 대해 다른 출력이 나올 수 있다.
Discrete Variables and Probability Mass Function
Probability mass function
이산 확률 변수 X가 임의의 값 x일 확률 P(X=x)를 x에 대한 함수 f(x)=P(X=x)라 할 때 f(x)는 확률변수 X의 확률질량함수이다.
Notation: P(x=x)→P(x)
ex) 주사위를 던져 3이 나올 확률 P(x=3)
return value는 실수이다.
Properties
유효한 x에 대해 P(x)는 항상 0 이상, 1 이하이다.
x∈x∑P(x)=1
Joint probability: 입력이 두개 이상인 다변수 확률함수
P(x=x,y=y): x=x and y=y
Marginal probability
joint probability에서 하나의 확률 변수를 제거한 확률 분포
input을 제거하는 효과가 있다.
∀x∈x,P(x=x)=y∑P(x=x,y=y)
임의의 x에 대하여 y와 상관없이 x가 일어날 확률
Conditional Probability
어떤 사건이 일어났다는 전제 하에 다른 사건이 일어날 확률
given 조건은 | 뒤에 표시된다.
P(y=y∣x=x)=P(x=x)P(x=x,y=y)
분자: joint probability
합이 1이 되도록 marginalized 값으로 나누어준다.
The Chain Rule of Conditional Probabilities
P(a,b,c)=P(a∣b,c)P(b,c)
P(b,c)=P(b∣c)P(c)
P(a,b,c)=P(a∣b,c)P(b∣c)P(c)
P(a,b∣c)=P(a∣b,c)P(b∣c)
P(a,b,c)=P(a,b∣c)P(c)=P(a∣b,c)P(b∣c)P(c)
Continuous Variables and Probability Density Function
Probability density function
연속 확률 변수 X의 분포를 나타내는 함수 f(x)를 확률 밀도 함수라고 한다.
Notation: P(a≤x≤b)=∫abf(x)dx
x ~ p(x): x가 확률 밀도 함수 p(x)를 따른다.
Independence and Conditional Independence
Independence: p(x=x,y=y)=p(x=x)p(y=y)
Conditional Independence - x와 y가 독립사건일 때
p(x=x,y=y,z=z)=p(x=x∣z=z)p(y=y∣z=z)
Expectation, Variance, and Covariance
function f(x)에 대한 Expectation: input x가 있을 때 function f가 어떻게 작동할 것인가에 대한 평균(기댓값)