부스트캠프 AI Tech 주간학습정리 - week1

lijm1358·2023년 3월 10일

새로 학습한 내용

Python closure, decorator
Module, package, 프로젝트 구조
pandas groupby, pivot table, crosstab
경사하강법으로 선형회귀 계수 구하기
최대가능도 추정법
Backpropagation Through Time

고민 내용

선형 회귀와 경사하강법

공간 상의 점 $n$ 개가 matrix $\mathbf{X}$ 로 주어졌을 때, 이 점들을 가장 잘 설명하는 선형 식을 찾는 문제이다.

y_1 = x_{11}\beta_1+x_{12}\beta_2+\cdots+x_{1d}\beta_d \\ y_2 = x_{21}\beta_1+x_{22}\beta_2+\cdots+x_{2d}\beta_d \\ \vdots \\ y_n = x_{n1}\beta_1+x_{n2}\beta_2+\cdots+x_{nd}\beta_d

이는 행렬식 $\mathbf{y} = \mathbf{X}\beta$ 로 표현할 수 있고, 실제로는 $\mathbf{X}\beta$ 만으로 완벽하게 $\mathbf{y}$ 를 구할 수 없기 때문에, $\mathbf{y}$ 에 가장 근접한 $\mathbf{\hat{y}}$ 이 되도록 $\beta$ 를 찾는 것이 선형 회귀이다.

$\mathbf{\hat{y}}$ 이 $\mathbf{y}$ 에 근접한 지 알 수 있도록 L2 norm을 사용하면 $\|\mathbf{\hat{y}}-\mathbf{X}\beta\|_2$ 를 최소화하는 벡터 $\beta$ 를 찾아야 하고, 이를 경사하강법을 통해 풀게 되면 gradient vector $\nabla\beta\|\mathbf{y}-\mathbf{X}\beta\|_2$ 를 구해 $\beta$ 를 업데이트해나가는 방식으로 찾게 된다.
$\mathbf{y}, \mathbf{X}, \beta$ 는 각각 $\mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n\end{bmatrix}, \mathbf{X}=\begin{bmatrix} x_{11} & x_{12}& \cdots & x_{1d} \\ x_{21} \\ \vdots & \ddots\\ x_{n1}\end{bmatrix}, \beta=\begin{bmatrix}\beta_1 \\ \beta_2 \\ \vdots \\ \beta_d \end{bmatrix}$ 형태일 때, gradient vector를 차근차근히 계산해나가면 된다.

$\|\mathbf{x}\|_2$ 의 정의는 $\displaystyle\sqrt{\sum_{i=1}^n(x_i)^2}$ 이므로, 정의에 의해 $\displaystyle\|\mathbf{y}-\mathbf{X}\beta\|_2 = \left(\frac{1}{n}\sum_{i=1}^{n}\left(y_i-\mathbf{X}_i\beta\right)^2\right)^{1/2}$ (1/n은 n개의 vector에 대해 norm을 구하므로 n으로 나눠줌) $\displaystyle=\left\{\frac{1}{n}\sum_{i=1}^n\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)^2\right\}^{1/2}$ 가 되고, 이를 미분해나가면 다음과 같다.
$\beta_k$ 에 대해 미분할 때, $\displaystyle\frac{1}{n}\sum_{i=1}^n\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)^2 = f(\beta_k)$ 라고 한다면

\begin{aligned}\displaystyle\partial_{\beta_k}\{f(\beta_k)\}^{1/2} & = \frac{1}{2}\{f(\beta_k)\}^{-1/2}\partial_{\beta_k}f(\beta_k) \\ & = \frac{1}{2\|\mathbf{y}-\mathbf{X}\beta\|_2}\partial_{\beta_k}\frac{1}{n}\sum_{i=1}^n\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)^2 \\ & = \frac{1}{2n\|\mathbf{y}-\mathbf{X}\beta\|_2}\sum_{i=1}^n\partial_{\beta_k}\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)^2 \\ & = \frac{1}{2n\|\mathbf{y}-\mathbf{X}\beta\|_2}\sum_{i=1}^n\left\{2\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)\partial_{\beta_k}\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)\right\} \\ & = -\frac{1}{n\|\mathbf{y}-\mathbf{X}\beta\|_2}\sum_{i=1}^n\left\{\left(y_i-\sum_{j=1}^{d}x_{ij}\beta_j\right)\left(\partial_{\beta_k}\sum_{j=1}^{d}x_{ij}\beta_j\right)\right\} \\ & =-\frac{1}{n\|\mathbf{y}-\mathbf{X}\beta\|_2}\sum_{i=1}^n\left\{\left(y_i-\mathbf{X}_i\beta\right)\left(x_{ik}\right)\right\} \\ & =-\frac{\mathbf{X}^T_k(\mathbf{y}-\mathbf{X}\beta)}{n\|\mathbf{y}-\mathbf{X}\beta\|_2}\end{aligned}

가 됨을 알 수 있다.

RNN BPTT(Backpropagation Through Time) 과정

매 time step별 입력 $x_i$ 에 사용되는 가중치 $W_x$ 와, 이전 잠재 변수 $H_i$ 에 사용되는 가중치 $W_{rec}$ 는 time step마다 모두 동일하게 적용된다.
RNN의 최종 출력은 time step별 입력과 이전 잠재 변수의 합이 계속 전달되어 출력되므로, 각 time step별 입력이 모두 더해져서 나오게 된다. 따라서, 가중치에 gradient descent를 적용할 때도, backpropagation을 통해 매 time step의 가중치의 gradient를 모두 구해서 더해야 한다. 이는 RNN의 출력을 수식으로 나타낸 뒤, 미분을 통해 다시 확인할 수 있다.
loss function이 MSE일 때, $\displaystyle\partial_{w}\frac{(y-s_n)^2}{n} = \frac{2}{n}(y-s_n)\partial_{w}s_n$ 이므로, 가중치 $w_x, w_{rec}$ 에 대하여 각각 미분하게 되면
$\displaystyle\partial_{w_x}s_n = \partial_{w_x}(x_nw_x + s_{n-1}w_{vec}) = x_n+w_{vec}\partial_{w_x}(s_{n-1}) = x_n+w_{vec}\partial_{w_x}(x_{n-1}w_x+s_{n-2}w_{vec})=x_n+w_{vec}x_{n-1}+w_{vec}^2\partial_{w_x}s_{n-2} = \sum_{i=0}^{n-1}x_{n-i}w_{vec}^{i}$
$\displaystyle\partial_{w_{rec}}s_n = \partial_{w_{rec}}(x_nw_x + s_{n-1}w_{vec}) = \partial_{w_{rec}}(s_{n-1}w_{rec}) = w_{rec}\partial_{w_{rec}}(s_{n-1})+s_{n-1} = s_{n-1} + w_{rec}\partial_{w_{rec}}(x_{n-1}w_x+s_{n-2}w_{rec}) = s_{n-1}+w_{rec}s_{n-2} + (w_{rec})^2\partial_{w_{rec}}s_{n-2}$
형태가 나오는 것을 알 수 있게 된다.

회고

1주차 학습

첫 부스트캠프 수업인 Python & AI Math 수업을 들었다. 첫 시작인 만큼 많은 긴장과 걱정이 되었지만, 수업 대부분의 내용은 부스트캠프 참여 이전 pre-course에서 대부분 들었던 내용이고, Python이나 일부 수학 내용은 이미 알고 있던 내용이어서 그나마 할만했던 것 같다.

하지만, 확률론 및 통계학 강의는 생소한 내용이 많이 나오기도 했고, 분명 학부 과정에서 배웠지만 다 까먹은 바람에... 내용을 따라가기가 좀 힘들었다. 결국 뜬구름 잡듯이 이해하고 그냥 넘어간 것 같은데 남는 시간이나 주말 등을 이용해 강의를 다시 복습하고, 학교에서 배운 내용을 다시 찾아 공부해야 할 필요가 있을 것 같다.

기본과제는 기본적인 python 이용 및 numpy, pandas를 활용하는 문제로, 대부분은 쉽게 해결했지만 pandas는 아직 사용이 익숙치 않아 많이 해멘 기억이 난다.
심화과제는 대부분 수학적인 내용을 코드로 구현하는 문제였는데, 난이도가 높아 꽤 고생했다. OT때 심화과제는 풀지 못해도 괜찮다고 했지만, 풀고 나니 심화과제도 반드시 해야겠다는 생각이 들었다.
특히, RNN backpropagation이나 최대가능도 추정과 같은 내용은 강의를 들으면서 그냥 그렇구나 하고 지나가버려 완전히 머릿속에 이해되지 않았지만, 심화과제를 풀면서 좀 더 깊이 있는 이해를 가지게 되었다.

피어 세션

랜덤으로 정해진 팀원끼리 매주 약 1시간동안 학습에 도움이 되는 활동을 한다. 처음 만나는 사람들과 활동을 한다는 게 아직도 많이 부담스러웠지만, 5일간 매일 진행하다보니 점점 익숙해지는 느낌이 든다. 다행히 팀원들이 모두 좋은 분들이고, 서로 말을 놓기로 정하면서 부담을 덜 가지게 되었다.

1주차 피어세션은 대부분 자기소개, ice breaking 등의 시간을 가지고 발표 자료 등을 함께 만드는 식으로 진행했고, 화요일부터는 알고리즘 문제를 하나 정해 약 20분간 다같이 풀었다.

멘토링

이주용 멘토님께서 멘토링을 진행해주셨다. AI의 간략한 역사와 현황 등을 설명해주셨고, 현재 연구중이신 분야에 대해 설명해주셨는데, AI가 스스로 문제를 만들고 해결한다는 것과 self awareness에 대해 설명해주셨다. AI공부를 하면서 전혀 생각해보지 못한 분야라 좀 더 고민해봐야 할 내용이라고 생각한다.
또한, 각 팀원의 목표를 듣고, 그 목표를 향해서 무엇을 해야할 지 조언해주셨다. 나는 아직 공부하려는 세부적인 분야를 정해지 못해 그 부분부터 먼저 찾는 것을 추천해주셨고, 3월동안 공부하면서 내가 공부하고자 하는 분야를 찾는 것이 목표이다.

마스터클래스

임성빈 마스터님께서 진행해주셨다. 대학원 및 취업 관련 여러 조언들과 함께, AI분야에 있어서 수학의 중요성, 공부방법 등을 공유해주셨다. 대학원 관련 고민은 나도 많이 했었고, 이 시간을 통해 많은 궁금증을 해결했다.
또한, 나 스스로 수학이 약하다고 생각했는데, 이론만을 계속 공부하면서 대략적인 내용만 머리에 남아있었기 때문인 것 같다. 특히, AI engineer가 되고자 한다면, 강의만 들으며 이론적인 내용만 머릿속에 넣는 것 보다 대략적으로 이해했으면 이론 내용을 실제로 어떻게 쓰는지 찾아보거나, 직접 사용해 보는 것이 더 중요하다고 하셨다. 이는 이번에 심화과제를 직접 풀어보면서, 자세하게 몰랐던 BPTT 과정이나 최대가능도 추정 등을 더 명확하게 알 수 있었기 때문에 더 와닿는 조언이었다.

앞으로의 계획 및 고칠 점

아직 완벽히 이해되지 않은 내용은 강의 복습하면서 이해하기
멘토링 시간 하루 전에 멘토님께 질문할 것 고민하기
매주 2편 이상 논문 읽기 + 1회 이상 리뷰
피어 세션 때 좀 더 자신감 가지고 활발히 말하기
학습 관련 질의응답에 올라온 질문의 답 확인 전에 나 스스로 답해보기
주말에도 개인적으로 공부할 것
이번 학습 정리를 시작으로 개인 블로그 활동 시작하기(공부 내용 정리, 정보 공유 등)

lijm1358

ML, DL 공부중

다음 포스트