# ai math

107개의 포스트
post-thumbnail

CNN과 RNN

CNN (Convolutional Neural Network) 단순 MLP와의 차이점 다층 퍼셉트론(MLP)은 각 뉴런이 선형모델과 활성함수로 모두 연결된(fully connected) 구조 각 성분 $hi$ 에 대응하는 가중치 행 $\bold{W}i$ 필요 → $i$가 바뀐다면 사용되는 가중치 행도 바뀜 합성곱(convolution) 연산은 이와 달리 커널(kernel)이 입력 벡터 상에서 움직이면서 선형모델과 합성합수가 적용되는 구조 모든

2023년 6월 4일
·
0개의 댓글
·
post-thumbnail

AI에 활용되는 확률과 통계

딥러닝에서 확률론이 필요한 이유 DL은 확률론 기반의 기계학습 이론이 바탕 기계학습에서 사용되는 손실함수(loss function)의 작동 원리는 데이터 공간을 통계적으로 해석하여 유도 예시 회귀 분석의 손실함수인 $L_2$-norm은 예측 오차의 분산을 가장 최소화하는 방향으로 학습 유도 분류 문제의 손실함수인 교차 엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습 유도 ⇒ 분산 및 불확실성을 최소화하기 위해서는 데이터의 초상화: 확률분포 이산확률변수 VS 연속확률변수 확률변수는 확률분포 $\mathscr{D}$에 따라 이산형(discrete)과 연속형(continuous)로 구분 이산확률변수: 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링 $$

2023년 6월 4일
·
0개의 댓글
·
post-thumbnail

딥러닝의 학습 방법

수식으로 분해하는 선형 모델 신경망을 수식으로 분해하기 위해서는, 우선 선형 모델을 먼저 이해해야 함 데이터 집합 $(\bold{x}i,\,yi)^n_{i=1}$을 통해, $\underset{\beta}{\textrm{min}}\,\mathbb{E}\parallel\bold{y}-\hat{\bold{y}}\parallel_2$를 만족하는, 선형식 $\bold{X\beta}\;(=\hat{\bold{y}})$을 세우기 수식으로 분해하는 비선형 모델(신경망) 비선형 모델인 신경망에서는, 각 행벡터 $\bold{o}i$가 데이터 $\bold{x}i$와 가중치 행렬 $\bold{W}$ 사이의 행렬곱과 절편 $\bold{b}$ 벡터의

2023년 6월 4일
·
0개의 댓글
·

경사하강법(Gradient Descent)

미분이란 미분(differentiation)은 변수의 움직임에 따른 함수 값의 변화를 측정하기 위한 도구 $$ f'(x)=\underset{h\rightarrow0}{\textrm{lim}}\frac{f(x+h)-f(x)}{h} $$ 최적화에서 가장 많이 사용하는 기법 sympy라는 파이썬 라이브러리로 계산 가능 그림으로 이해하는 미분 미분은 함수 $f$의 주어진 점 $(x,\,f(x))$에서 접선의 기울기를 구함 한 점에서 접선의 기울기를 알면, 어느 방향으로 점을 움직여야 함수값이 증가/감소하는지를 알 수 있음 경사하강법 ![](https://velog.velcdn

2023년 6월 4일
·
0개의 댓글
·
post-thumbnail

벡터와 행렬

벡터란 벡터(vector): 숫자를 원소로 가지는 리스트(list) 또는 배열(array) 공간에서의 한 점을 나타냄 원점으로부터 해당 점의 상대적 위치를 표현 숫자(스칼라)를 곱해주면 방향은 그대로, 길이만 변함 → $\alpha\bold{x}=[\alpha x1\quad\alpha x2\quad...\quad\alpha x_d]$ ![](https://velog.velcdn.com/images/kaiba0514/po

2023년 6월 4일
·
0개의 댓글
·

네이버 부스트캠프 AI Tech 5기 회고-week1 ②

Intro > 1주 차 회고 ①에 이어 AI 기초 수학 강의를 들으며 중요한 부분 및 부족한 부분을 기록하고자 한다. AI Math 1. 벡터 > - 벡터 원소 개수가 벡터의 차원임 (열벡터, 행벡터 모두) 벡터는 공간에서 한 점을 나타내며, 원점으로부터 상대적 위치를 표현 벡터에 스칼라를 곱해주면 방향은 그대로, 길이만 변함 벡터가 같은 모양을 가지면 성분곱(element-wise)을 계산할 수 있음 노름(norm)은 원점에서부터 거리를 뜻함 L1 노름은 각 성분의 절대값을 모두 더함 L2 노름은 유클리드 거리를 계산 노름의 종류에 따라 기하학적 성질이 달라짐 (L1 norm: Lasso 회귀, L2 norm: Ridge 회귀) 두 벡터 사이의 거리는 뺄셈으로 구함 내적 cosθ 는 두 벡터는 어느 차원에 있어도 가능하지만, L2 norm을 이용해서만 가능 cosθ = 두 벡터의 내적/두 벡터의 거리 곱

2023년 3월 12일
·
0개의 댓글
·

부스트캠프 AI Tech 5기 1주차 [Python & AI Math]

부스트캠프를 시작하며 이번 주 월요일 드디어 부스트캠프 일정이 시작되었다. 합격을 하고 한 달 정도를 기다리는 동안 어떤 과정과 시련이 기다리고 있을지 많은 기대와 걱정을 안고 기다려왔었는데 이제 첫 발걸음을 떼게 되었다. 앞으로 어떤 일들이 생길지는 모르지만, 5개월 뒤에는 지금보다 훨씬 발전한 내가 되어있기를 바란다. Python 1강 운영체제(OS): 운영체제는 우리가 컴퓨터를 사용할 때 우리가 우리의 작업에 집중할 수 있도록 메모리 관리, 프로그램 제어 등을 우리 대신 수행해주는 프로그램이다. 파일 시스템: 파일 시스템은 우리가 사용하는 파일을 보관하는 저장 체계로 트리구조를 하고 있으며 파일은 파일명과 확장자등으로 구분할 수 있고 파일을 열고 닫고 수정하고 저장할 수 있게 해준다. 파일 시스템을 사용하는 목적은 큰 용량의 저장소를 효율적으로 이용하고 저장장치들간의 속도차를 줄이는 것이다. 2강 변수: 어떠한 값을 저장하기 위한 자료구조로 값을 메

2023년 3월 10일
·
0개의 댓글
·
post-thumbnail

역전파

역전파란? 역전파란 딥러닝 신경망의 가중치와 편향들에 대한 손실함수의 편미분 값을 구하는 방법이다. 역전파의 핵심은 출력에 대한 편미분 값을 앞 층에 전달하는 것이다. 연쇄법칙 딥러닝의 손실함수는 복잡한 합성함수이기 때문에 연쇄법칙을 사용하여 미분한다. 만약 $\frac{df}{dx}$를 구하고 싶으면 아래와 같은 과정을 통해 구할 수 있다. $$f(y)=y^3, y(x)=x^2+2x+1$$ $$\frac{df}{dy}=3y^2, \frac{dy}{dx}=2x+2$$ $$\frac{df}{dx}=\frac{df}{dy}\frac{dy}{dx}=(2x+2)3y^2$$ 편미분 계산 가중치에 대한 편미분: 앞층의 i번 째 뉴런과 j번 뉴런을 연결하는 가중치 $w^L$를 바꾸면 앞층의 $a_j^L$에만 영향을 미치기 때문에 $w$를 바꿀때 $z,a,j$가 어떻게 바뀌는지 계산하여 곱함 ![](https://velog.

2023년 3월 9일
·
0개의 댓글
·
post-thumbnail

경사하강법(gradient descent method)

경사하강법 경사하강법이란 미분을 이용하여 손실함수의 최솟값을 찾아가는 iterative한 방법이다. 경사하강법목적 인공지능 모델을 검증할 때 예측값과 레이블(정답)값의 오차를 나타내는 손실함수를 이용하여 검증하는데 손실함수 값이 작을 수록 모델의 오차가 적다. 머신러닝,딥러닝에서 사용하는 손실함수는 간단하지 않고 매우 복잡한 경우가 많아 미분값을 구하기 어려운 경우가 많다. 경사하강법을 사용하면 손실함수를 최소화 시킬 수 있는 파라미터를 효율적으로 찾을 수 있다. 경사하강법 수식 유도 $f'(x) > 0$: 기울기가 양수 일때 $x$값이 작아질 수록 함수값이 작아짐 $f'(x) < 0$: 기울기가 음 일때 $x$값이 커질 수록 함수값이 작아짐 따라서 _해당 파라미터에서 기울기를 빼

2023년 3월 8일
·
0개의 댓글
·
post-thumbnail

[U] Week 1 Day 5

1. 강의 복습 내용 > - 목표 : AI Math 퀴즈 전부 풀기 심화 과제 해설 듣기 전 풀진 못해도 내용 파악 학습 정리 팀 회고 작성 결과 : AI Math 수강한 내용을 바탕으로 퀴즈를 푸니 한 번에 전부 만점받을 수 있었음 (O) 심화 과제 내용 파악 (O) 학습 정리는 아직 전부 끝내진 못해서, 주말 중에 좀 더 채워넣기 (△) 팀 회고록 작성하여 제출 완료 (O) (6) 확률론 맛보기 (7) 통계학 맛보기 (8) 베이즈 통계학 맛보기 (9) CNN 첫걸음 (10) RNN 첫걸음 2. 공부를 하며 고민한 내용, 고민 결과 3. 첫 멘토링 미팅 (오전 10시 ~ 11시) Ice Breaking 타임을 통해 팀원들과 멘토님에 대해 더 잘 알아갈 수 있는 시간이었음 모두들 성격도 좋고, 대화도 잘 통하는 분들을 만나 정말 행운이라 느낌

2022년 10월 1일
·
0개의 댓글
·
post-thumbnail

[U] Week 1 Day 4

1. 강의 복습 내용 (1) 벡터가 뭔가요? 벡터 : 숫자를 원소로 가지는 리스트(list) or 배열(array) 공간에서 "하나의 점"을 나타냄 원점으로부터 "상대적 위치"를 표현 벡터에 스칼라곱 : 길이만 변함 (스칼라값이 0보다 작으면 반대 방향) 성분곱(Hadamard product; element-wise product) 두 벡터의 덧셈 : 다른 벡터로부터 상대적 위치 이동을 표현 뺄셈 = 방향을 뒤집은 덧셈 노름(norm) : 원점에서부터의 거리를 의미, 벡터의 크기를 표현 L1-norm : 각 성분의 변화량의 절댓값을 더한 것으로 표현 (Robust 학습, Lasso 회귀에서 사용) $||x||1$ = $\sum{i=1}^{d} |x_i|$ L2-norm : 피타고라스 정리를 이용해 유클리드 거리를 계산 (

2022년 10월 1일
·
0개의 댓글
·
post-thumbnail

최대 가능도 추정법 MLE(Maximum Likelihood Estimation)

MLE(Maximum Likelihood Estimation) MLE 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 그냥 특정 sample들 중에서 가장 모수를 잘 나타낼 수 있는 최대 값을 찾는 거? > 눈으로 보기에도 파란색 곡선 보다는 주황색 곡선에서 이 데이터들을 얻었을 가능성이 더 커보인다. 왜냐면 획득한 데이터들의 분포가 주황색 곡선의 중심에 더 일치하는 것 처럼 보이기 때문이다. 이 예시를 보면, 우리가 데이터를 관찰함으로써 이 데이터가 추출되었을 것으로 생각되는 분포의 특성을 추정할 수 있음을 알 수 있다. 여기서는 추출된 분포가 정규분포라고 가정했고, 우리는 분포의 특성 중 평균을 추정하려고 했다. <출처 : https://angeloyeo.github.io

2022년 9월 24일
·
0개의 댓글
·
post-thumbnail

[AI Math] CNN & RNN

Convolution Neural Network & Recurrent Neural Network CNN 지금까지 배운 다층신경망은 각 뉴런들이 선형모델과 활성함수로 모두 연결된 구조였다 각 성분 $hi$에 대응하는 가중치 $Wi$가 필요하고 $i$가 바뀌면 사용되는 가중치도 바뀜 이와 다르게, convolution 연산은 커널(kernel)(고정된 가중치 행렬)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조이다. 👉 $i$의 개수의 상관 없이 공통된 사이즈의 커널을 사용하여 연산에 활용하기 때문에 parameter 사이즈를 많이 줄일 수 있다. 정의역이 연속인 공간에서 적분을 사용해서 정의 discrete한 공간상에서는 적분이 안되므로 급수로 표현

2022년 9월 23일
·
0개의 댓글
·

[AI Math] 베이즈 통계학 맛보기

베이즈 정리와 인과관계 추론 데이터가 새로 추가되었을 때 정보를 업데이트하는 방식에 대한 기반이 되므로 머신러닝에 사용되는 예측모형의 방법론으로 많이 사용됨 조건부 확률 $P(A \cap B) = P(B)P(A \mid B)$ $P(A \mid B)$ : 사건 $B$가 일어난 상황에서 사건 $A$가 발생할 확률 $P(B \mid A) = \frac{P(A \cap B)}{P(A)} = P(B)\frac{P(A \mid B)}{P(A)}$ 베이즈 정리를 통한 정보의 갱신 베이즈 정리를 통해 이전의 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있음 조건부확률 인과관계 데이터가 많아져도 조건부 확률로만 인과관계를 추론하는 것은 불가

2022년 9월 23일
·
0개의 댓글
·

[AI Math] 통계학 맛보기

모수, 최대가능도 추정법(정규분포, 카테고리분포), 표본분포와 표집분포, 가능도 모수란? 통계적 모델링은 적절한 가정 위에서 확률분포를 추정하는것이 목표이고, 머신러닝과 통계학이 공통으로 추구하는 목표 유한한 데이터로 모집단의 분포를 정확하게 알아내는것은 불가능 -> 근사적으로 추정 데이터가 특정 확률분포를 따른다고 선험적(a priori)으로 가정한 후 그 분포를 결정하는 모수를 추정하는 방법이 모수적(parametric) 방법론 (모수란 모집단 전체를 설명하는 측도. 예를 들어, 정규분포에서는 평균, 분산) 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수방법론(모수가 무한히 많거나 모수의 개수가 데이터에 따라 바뀌는 경우)이라 부름 대부분의 기계학습의 방법론은 비모수방법론에 속함 확률분포 가정 >데이터가 2개의 값만 가지는 경우 → 베르누이분포 데이터가 n개

2022년 9월 23일
·
0개의 댓글
·

[AI Math] 확률론 맛보기

딥러닝에서 확률론이 왜 필요한가 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 둔다. 기계학습에서 사용되는 손실함수(loss funtion)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다. 회귀 분석에서 손실함수로 사용되는 $L_{2}$ 노름은 예측오차의 분산을 가장 최소화하는 방향으로의 학습을 유도 분류 문제에서 교차 엔트로피는 모델 예측의 불확실성을 최소화하는 방향으로의 학습 유도 👉 분산과 불확실성을 최소화하려면 측정하는 법을 알아야하고 이를 통계학에서 제공하기 때문에 기계학습을 이해하기 위해 확률론의 기본 개념을 알아야 한다. 확률분포는 데이터의 초상화 데이터 공간을 $x\times y$ 라 표기하고 $D$ 는 데이터 공간에서 데이터를 추출하는 분포 이산확률변수 : 확률변수가 가질 수 있는 모든 경우의 수를 고려하려 확률을 더해 모델링 $P(X\in A) = \sum_{x\in A}^{}P(X=x)$ 연속확률변수 :

2022년 9월 23일
·
0개의 댓글
·

[U] Week 1 - RNN 첫걸음

RNN(Recurrent Neural Network) 독립적으로 들어오는 데이터가 아닌 시계열과 같이 시퀀스 형태의 데이터를 다루기 위한 네트워크. 순차적으로 구성된 시계열(time-series), 소리, 문자열, 주가 등의 데이터를 시퀀스(sequence) 데이터로 분류한다. 시퀀스 데이터는 독립동등분포(i.i.d.) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다. 과거 정보 또는 앞뒤 맥락 없이 미래를 예측하거나 문장을 완성하는 건 불가능하다. 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부확률을 이용할 수 있다. 조건부확률을 다룰 때 과거의 모든 정보를 활용할 수 있지만 경우에 따라 모든 정보가 필요한 것은 아니다. 시퀀스 데이터를 다루기 위해서는 길이가 가변적인 데이터를 다룰 수 있는 모델이 필요하다. 고정된 길이 $t$만큼의 시퀀스만 사용하는

2022년 9월 23일
·
0개의 댓글
·

[U] Week 1 - CNN 첫걸음

Convolution 연산 Convolution 연산은 커널(kernel)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조이다. Convolution 연산의 수학적인 의미는 신호(signal)를 커널을 이용해 국소적으로 증폭 또는 감소시켜 정보를 추출 또는 필터링하는 것이다. CNN에서 사용하는 연산은 실제로 cross-correlation이라 부른다. 범용적으로 Convolution이라고 불렀던 이유는 전체 공간에서는 신호 텀의 연산이 +인지, -인지 중요하지 않기 때문에 같은 것으로 성립한다. 커널은 정의역 내에서 움직여도 변하지 않고(translation invariant) 주어진 신호에 국소적(local)으로 적용된다. Convolution 연산은 1차원뿐만 아니라 다양한 차원에서 계산 가능하다. 데이터의 성격에 따라 커널이 달라진다. 2D Conv 연산은 커널을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조

2022년 9월 23일
·
0개의 댓글
·

[U] Week 1 - 베이즈 통계학

조건부 확률 조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다. 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다. A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(A|B)를 계산하는 방법을 제공한다. $$ P(\theta\vert D)=P(\theta)\frac{P(D\vert\theta)}{P(D)} $$ Parmaeters $P(\theta\vert D)$ -> 사후확률(posterior) $P(D)$ -> Evidence: 데이터 자체의 분포 $P(D\vert \theta)$ -> 가능도(likelihood) $P(\theta)$ -> 사전확률(prior): 실제 질병의 발병률 사전확률 없이는 베이즈 정리로 분석하기 어렵다. (없으면 임의로 설정하지만 신뢰도가 떨어진다) 사전확률과 가능도를 이용해 Evidence를 구하고 이를 사용해 사후확률을 구한다. 오

2022년 9월 23일
·
0개의 댓글
·
post-thumbnail

[AI Math] 딥러닝 학습 방법

신경망(neural network) 선형 모델로는 분류 문제나 복잡한 패턴에서 높은 예측을 구하기 힘듬 비선형 모델인 신경망을 고려 선형모델과 비선형 함수들의 결합 선형 모델 수식 : $O = X * W + b$ X (n x d) : 입력 벡터 W (d x p) : 가중치 b (n x p) : y절편 들의 행렬 O (n x p) : 출력 벡터 $X * W$에서 행렬의 차원이 d에서 p로 바뀜 softmax 연산 >모델의 출력을 확률로 해석할 수 있게 변환해주는 연산 $\vec{z}$ 가 출력 벡터 $o$ $softmax(o) = softmax(Wx + b)$ 주어진 데이터가 어떤

2022년 9월 22일
·
0개의 댓글
·