시리즈

Naver AI Precourse

1.Numpy

일반 list에 비해 빠르고, 메모리 효율적임C의 Array를 사용하여 배열 생성반복문 없이 데이터 배열에 대한 처리 가능import numpy as np 형태로 사용np.array(1, 2, 3, float) 과 같은 형태로 배열 생성하나의 데이터 type만 배열에

2024년 6월 18일

2.경사하강법

미분값을 빼면 함수의 극소값의 위치를 구할 수 있으며, 경사하강법(gradient descent)라고 함.경사 하강 방법은 극값에 도달하면 움직임을 멈춤.각 변수 별로 편미분을 계산한 그레디언트(gradient) 벡터 이용d차원의 vector이면 편미분을 d번 수행그레

2024년 6월 18일

3.딥러닝 학습방법 개요

아래 내용은 네이버 AI precourse 강의를 개인 공부를 위해 정리한 내용입니다.지난시간까지 선형모델에 대해 학습했다면,이번시간부터는 비선형모델인 신경망(neural network)에 대해 다룸! 선형모델을 거치면 입력 데이터의 차원 d에서 출력벡터 차원 p로 바

2024년 6월 19일

4.[DL 수학] - 2) 확률론 맛보기

아래 내용은 네이버 AI precourse 강의를 개인 공부를 위해 정리한 내용입니다.딥러닝에서 확률론이 필요한 이유: 분산 및 불확실성을 최소화하기 위해1\. 회귀 분석: 손실 함수로 사용되는 L2 Norm에서 예측오차의 분산을 최소화하는 방향으로 학습하기 위해2\.

2024년 6월 19일

5.[DL 수학] - 4) 최대가능도추정법

확률분포마다 사용하는 모수가 다른데, 데이터를 잘 설명할 가능성이 가장 높은 모수를 추정하는 방법이 최대우도법 또는 최대가능도추정법(Maximum Likelihood Estimation, MLE)이다.출처: https://amber-chaeeunk.tistor

2024년 6월 20일

6.[DL 수학] - 5) 쿨백-라이블러 발산

쿨백-라이블러 발산이 불러일으킨 나비효과.정보이론까지 공부하고 오다니,,, 차근차근 설명해보겠다.이 페이지는 chat gpt의 공이 크다.나비효과 시발점 박제 특정 사건이 일어날 확률 $$P(x)$$가 작을수록 더 많은 정보 $$I(x)$$를 제공한다. 직관적으로, 자

2024년 6월 20일

7.[DL 기본] - 6) 베이즈 통계학

이번시간에는 다음 내용을 배운다.1\. 기계학습에서 데이터가 새로 추가될 때마다 정보를 업데이트하는 방법론인 베이즈 정리2\. 인과관계 추론 방법조건부 확률$$P(A|B) = \\frac{P(A \\cap B)}{P(B)}$$ : 사건 B가 일어난 상황에서 사건 A가

2024년 6월 22일

8.CNN 첫걸음

지금까지 배운 다층신경망(MLP)는 각 뉴런들이 선형모델과 활성함수로 모두 연결된 fully connected 구조였다. 그러나 이것의 문제점은 각 성분 $$h{i}$$에 대응하는 가중치행 $$\\textbf{W}{i}$$가 모든 성분에 대해 필요하다. 즉, 가중치 행

2024년 6월 22일

9.RNN 첫걸음

시퀀스(Sequence) 데이터란, 순차적으로 들어오는 데이터를 의미하며, event 발생 순서가 중요한 데이터다.소리, 문자열, 주가 데이터 등이 해당된다.시퀀스 데이터는 독립동등분포(i.i.d.) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하

2024년 6월 22일

10.PyTorch 개요

TensorFlow vs PyTorch 가장 큰 차이점은 TensorFlow는 Static graphs 방식, PyTorch는 Dynamic computation graphs 방식이라는 것이다. 즉, 텐서플로우는 그래프를 먼저 다 정의하고 $$\rightarrow$$

2024년 6월 22일

11.[DL] Historical Review

모델이 학습할 데이터. 이 데이터의 종류/형태는 우리가 해결하고자하는 문제의 종류에 따라 달라지게 된다. Input 데이터를 Output의 형태로 변형시킬 모델.구체적으로 AlexNet, GoogLeNet, ResNet, LSTM, GAN 등이 해당된다.모델의 성능을

2024년 6월 24일

12.[DL] Multi-Layer Perceptron

Neural Networks는 직선과 평형성을 유지하는 변환(Wx+b)인 affine transformation 과 비선형 연산(Nonlinear Tranformations)의 합이다. 구체적인 과정에 대해 쉬운 예시로 시작해보자. 우리의 목표는 최적의 모델을 찾는 것

2024년 6월 24일

13.[DL] Optimization - 1) 관련 용어

Generalization이 좋다= 테스트 데이터에서의 성능이 학습 데이터와 비슷하게 나온다.= 학습데이터의 성능이 안좋으면 generalization이 잘 되어도 성능이 안좋다.Underfitting: Train data도 잘 안됨.Overfitting: Train

2024년 6월 24일

14.[DL] Optimization - 2) Gradient Descent 방법

오늘 살펴볼 내용의 비유 ver. 이미지 출처: 하용호, 자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다. 각 반복(iteration)마다 하나의 훈련 데이터 샘플을 사용하여 파라미터를 업데이트한다.특징매 반복마다 빠른 업데이트가 가능하지만, 각 업데이트가 노

2024년 6월 24일

15.[DL] Optimization - 3) Regularization

Regularization이란?train data의 학습을 방해함으로써 test data에도 잘 동작하도록 하는 기법이다.개념아래에서 loss가 더 커지기 전에 멈추는 것이다. 훈련 중에 모델의 성능(주로 검증 데이터에 대한 손실 또는 정확도)을 지속적으로 평가한다.

2024년 6월 25일

16.[DL 기본] - 1) CNN

CNN(Convolutional Neural Networks)은 이름에서도 알 수 있듯이 convolution이 중요한 과정이다. 그렇다면 convolution은 무엇인가? https://velog.io/@cherrykim/CNN-첫걸음 이부분에서도 간략하게

2024년 6월 25일

17.[DL 기본] - 2) Modern CNN

특징총 8개 layer (요즘 모델들에 비하면 매우 light함)GPU 성능 제한 문제로 네트워크가 2개로 나누어져 있음.파라미터가 11 \* 11인 필터 사용. 이는 사실 좋은게 아님. 왜냐하면 필터 사이즈가 커지면 receptive field, 즉 하나의 커널이 볼

2024년 6월 25일

18.[DL 기본] - 3) Computer Vision

Semantic Segmentation Semantic Segmentation은 이미지의 각 픽셀이 어디에 속하는지 classification하는 것이다. 이는 주로 자율주행에 많이 사용된다. Detection 앞서 Semantic Segmentation에서 per

2024년 6월 26일

19.[DL 기본] Transformer

아래 내용은 다음 자료들을 재구성한 내용이다. https://www.youtube.com/watch?v=AA621UofTUAhttps://www.youtube.com/watch?v=eMlx5fFNoYchttps://www.youtube.com

2024년 6월 28일

20.[DL 기본] Generative Models (1)

Generative model(생성 모델)은 데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델이다. Generative model의 주요 목표는 주어진 데이터의 확률 분포 $$p(x)$$를 학습하는 것이다. 이를 통해 1) 새로운 데이터 샘플을 생성하거나(Gene

2024년 7월 1일

21.[DL 기본] Generative Models (2)

강아지 이미지를 생성하는 어떤 분포가 존재한다고 해보자. 우리는 그 분포를 모르지만 우리가 모델링할 수 있는 어떤 probability density를 어찌저찌 잘 조정해서 generative model과의 거리를 최소화하는 방향으로 해당 density를 최적화하고 싶

2024년 7월 3일