Lec-04 1 Multi variable linear regression

박준영·2025년 11월 11일

머신러닝

딥러닝 공부

목록 보기

6/23

remind

Hypothesis => $H(x)=Wx+b$
Cost Function => $\text{cost}(W)=\frac{1}{m}\sum_{i=1}^{m}\big(H(x_i)-y_i\big)^2$
Gradient descent => $W \leftarrow W - a \cdot \frac{1}{m}\sum_{i=1}^{m}\big(H(x_i)-y_i\big)\,x_i$

One Variable (One-feature)

=> 하나의 변수에 대해서 하나의 예측치를 가진다.

x (hours)	y (score)
10	90
9	80
3	50
2	60
11	40

=> 하나의 값만으로 예측하는 것 보다는, 여러 개의 값으로 예측하는 것이 더 예측을 잘 할 것이다.
=> prediction power (예측력)

Multi Vairable

x1 (quiz 1)	x2 (quiz 2)	x3 (quiz 3)	y (final)
73	80	75	152
93	88	93	185
89	91	90	180
96	98	100	196
73	66	70	142

=> 모의고사 점수로 최종 점수를 예측하는 모델

One Variable vs Multi Variable

구분	입력(특징)	출력	가설 표기
One Variable (One-feature)	$x$ (hours) 1개	$y$ (score) 1개	$H(x)=Wx+b$
Multi Variable	$x_1,x_2,x_3$ (quiz1,2,3)	$y$ (final) 1개	$H(x_1,x_2,x_3)=w_1x_1+w_2x_2+w_3x_3+b$

비용 함수는 공통: $\text{cost}(W,b)=\frac{1}{m}\sum_{i=1}^{m}\big(H(x_i)-y_i\big)^2$

Hypothesis

$H(x)=Wx+b$
$H(x_1,x_2,x_3)=w_1x_1+w_2x_2+w_3x_3+b$
$H(x_1,x_2,x_3,\dots)=\sum_j w_j x_j + b$
$\,\text{cost}(W,b)=\frac{1}{m}\sum_{i=1}^{m}\big(H(x_i)-y_i\big)^2$

Matrix

$H(x_1,x_2,x_3,\dots)=w_1x_1+w_2x_2+w_3x_3+\dots+w_nx_n+b$
변수 수가 늘면 Matrix로 간략화한다.

Matrix multipication

\begin{bmatrix} 1 & 2 & 3\\ 4 & 5 & 6 \end{bmatrix} \cdot \begin{bmatrix} 7 & 8\\ 9 & 10\\ 11 & 12 \end{bmatrix} = \begin{bmatrix} 1\cdot7 + 2\cdot9 + 3\cdot11 & 1\cdot8 + 2\cdot10 + 3\cdot12\\ 4\cdot7 + 5\cdot9 + 6\cdot11 & 4\cdot8 + 5\cdot10 + 6\cdot12 \end{bmatrix} = \begin{bmatrix} 58 & 64\\ 139 & 154 \end{bmatrix}

첫 번째 행렬의 행과 두 번째 행렬의 열을 곱해 더한다(점곱, dot product)
각 행/열 을 곱한 값을 모두 더하여 결과값을 얻는다. => dot product

선형 가설의 행렬 표현

따라서 $H(x_1,x_2,x_3,\dots)=w_1x_1+w_2x_2+w_3x_3+\dots+w_nx_n+b$ 는 행렬로
$[\,x_1\ x_2\ x_3\,]\begin{bmatrix}w_1\\ w_2\\ w_3\end{bmatrix}=x_1w_1+x_2w_2+x_3w_3$
이렇게 matrix $X$ , matrix $W$ 로 표현한다.
$H(X)=XW$ (매트릭스는 대문자로 표기, 입력 $X$ 와 가중치 $W$ 의 곱)

matrix 예제(차원)

데이터

x1 (quiz 1) x2 (quiz 2) x3 (quiz 3) y (final)
73 80 75 152
93 88 93 185
89 91 90 180
96 98 100 196
73 66 70 142
- 변수 3개, 데이터 개수 5개
- $X$ 는 $[5,3]$ 행렬
- $W$ 는 $[3,1]$ 행렬
- $H(X)=XW$ 는 $[5,1]$

dot product의 차원 규칙

앞 행렬의 열 수 = 뒤 행렬의 행 수여야 한다
- 예: $[n,3]\cdot[3,1]=[n,1]$ 이므로 $H(X)=XW$
데이터 개수와 무관: $[n,3]\cdot[3,1]=[n,1]$ 는 $n$ 이 얼마든 동일
출력이 2개인 경우
- $[n,3]\cdot[3,2]=[n,2]$
- 즉 $W$ 를 $[3,2]$ 로 두면 $H(X)$ 는 $[n,2]$

WX vs XW

이론: $H(x)=Wx+b$ 표기를 자주 사용
TensorFlow: 구현상 $H(X)=XW$ 사용이 일반적
이유: 행렬 곱의 차원 일치를 위해 입력 $X$ 가 앞에 온다

출처: 모두를 위한 딥러닝 강좌 2
https://www.youtube.com/watch?v=7eldOrjQVi0&list=PLQ28Nx3M4Jrguyuwg4xe9d9t2XE639e5C

박준영

이전 포스트

Lec-03 2 How to minimize cost

다음 포스트

Lec-04 1 Multi variable linear regression

딥러닝 공부

remind

One Variable (One-feature)

Multi Vairable

One Variable vs Multi Variable

Hypothesis

Matrix

Matrix multipication

선형 가설의 행렬 표현

matrix 예제(차원)

dot product의 차원 규칙

WX vs XW

Lec-03 2 How to minimize cost

Lec-04 2 Multi variable linear regression

0개의 댓글