# Gradient Descent

34개의 포스트
post-thumbnail

역전파와 경사하강법

🔎 역전파 (오차 역전파) 순전파 (Forward Propagation) 신경망의 입력층부터 출력층까지 순서대로 변수들을 계산하고 저장하는 것. 역전파 (Back Propagation) 신경망의 출력층부터 입력층까지 오차를 전파시키며 각 층의 가중치를 업데이트 하는 것. 📌 역전파 과정 1) 주어진 입력값에 상관 없이, 임의의 초기 가중치 w를 준 뒤 은닉층을 거쳐 결과를 계산 2) 계산 결과와 실체 예측 값 사이의 오차를 구함 3) 가중치 업데이트 4) 1~3의 과정을 오차가 더 이상 줄어들지 않을 때까지 반복 기

2023년 7월 2일
·
0개의 댓글
·
post-thumbnail

[CS229] 2. Linear Regression and Gradient Descent 리뷰

이 포스트는 CS229의 2. Linear Regression and Gradient Descent 강의를 보고 리뷰한 포스트입니다. 내용이 부정확할 수 있다는 점 감안하고 보시길 바랍니다. `Mechanism` Figure 1. Machine Learning Algorithm Training dataset X가 주어지면, Learning algorithm을 통해 hypothesis를 갱신한다. optimal hypothesis 산출되면, 최종적으로 real y와 estimated y(y hat)의 오차를 최소화하는 y hat이 predict(estimate)될 것

2023년 6월 27일
·
0개의 댓글
·
post-thumbnail

An overview of gradient descent optimization algorithms

Abstract 경사 하강 최적화 알고리즘은 대중적으로 사용되고 있지만 장점과 단점에 충분한 설명을 하기 어려워서 블랙박스 최적화 도구로 사용된다. 이 논문에서는 일반적인 최적화 알고리즘을 설명하고, 병렬 및 분산환경에서 아키텍처를 검토하고, 경사하강법의 다양한 전략을 소개한다. 1 Introduction 경사하강법은 최적화를 수행하는 가장 일반적인 알고리즘이고 신경망을 최적화하는 가장 일반적인 방법이다. 다양한 라이브러리에서 수행되는 경사하강법 알고리즘은 블랙박스 옵티마이저를 사용해서 장점과 단점에 대한 실용적인 설명이 어렵다. 논문에서는 다양한 경우 경사하강법을 사용할 때 선택하는 가이드를 제공한다. 경사하강법은 목적함수 J(세타)를 최적화하는것으로 목적함수의 도함수 기울기와 반대로 세타를 움직인다. learning rate η는 minimum에 도달하기 위한 step size이다. 즉, 최소치에 도달하기위해 경사의 방향을 내려막길로 따라간다 **learn

2023년 5월 24일
·
0개의 댓글
·
post-thumbnail

제로베이스 데이터취업스쿨 DAY53 머신러닝9~11

지도학습 분류(Classification), 회귀(Regression) 비지도학습 군집, 차원 축소 비용함수(Cost Function) -원래의 값과 가장 오차가 작은 가설함수 를 도출하기 위해 사용되는 함수 선형 회귀 ![](https://velog.velcdn.com/images/mezero402/post/d9418c82-4

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

2-2. Optimization using GD

본 글은 K-MOOC의 인공지능 수학 고급(Advanced Mathematics for AI) 강의를 듣고 요약한 글입니다. Optimization 특정 함수를 주어진 조건에 맞춰 최대화 또는 최소화하는 것 최대화 하는 경우 - Objective Function 최소화 하는 경우 - Loss Function 주어진 조건: Feasible region 또는 Constraint region Gradient Descent 목표: loss function을 최소화하는 것. $$ \argmin{\beta0, \beta1}\sum^Ni(y^{(i)}-(\beta0 + \beta1x^{(i)}))^2 $$ 현재 위치가 $$(\tilde{\beta}0, \tilde{\beta}1)$

2023년 3월 22일
·
2개의 댓글
·
post-thumbnail

Machine Learning

![](h

2023년 3월 14일
·
0개의 댓글
·
post-thumbnail

Gradient Descent_LG Aimers(8)

본 포스트는 LG Aimers 활동에 참여하며 온라인 AI 교육을 정리한 내용입니다! 프로그램에 관심이 있으시다면 https://www.lgaimers.ai/ 를 참고해주세요!! Gradient 손실함수에서 파라미터인 $\theta0, \theta1$을 최소로 하는 값을 찾도록 한다. 값을 지속적으로 변화시켜 최소로 만든다. Gradient vector function의 partial derivative term을 가진다. 변화량이 가장 큰 방향으로 update한다. Step size($a$)

2023년 1월 8일
·
0개의 댓글
·
post-thumbnail

최적화 - Gradient Descent Methods

경사하강법은 3가지 종류로 구분된다. 위 수식에서 볼 수 있듯 파라미터 최적화 과정은 오차함수의 평균 기울기로 계산한다. >사진 출처 https://www.youtube.com/watch?v=8NeD-B5e32M Stochastic gradient descent Update with the gradient computed from a single sample (전체 데이터 중 하나를 랜덤으로 가져와서 최적화를 진행한다.) Mini-batch gradient descent Update with the gradient computed from a subset of data (batch size) (전체 데이터 중 일부를 가져와서 최적화를 진행한다.) Batch gradient

2023년 1월 6일
·
0개의 댓글
·
post-thumbnail

[인공지능(AI) 기초 다지기] - 경사하강법(순한맛)

부스트코스 강의 인공지능(AI) 기초 다지기 중 '경사하강법(순한맛)'을 정리한 내용이다. 미분 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법 미분은 함수 f의 주어진 점(x,f(x))에서의 접선의 기울기를 구하는 것 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는지/감소하는지 알 수 있음 ![](https://ve

2022년 12월 15일
·
0개의 댓글
·
post-thumbnail

[혼자 공부하는 머신러닝+딥러닝] - CH.4-2 Stochatic Gradient Descent

훈련 세트에서 랜덤하게 하나의 샘플을 골라 최적의 손실함수를 찾는 '확률적 경사 하강법' 이진 분류는 로지스틱 손실 함수, 다중 분류는 크로스엔트로피 손실 함수 사용 > colab 링크: https://colab.research.google.com/drive/1NkEtHKN5e1wooLBOHUlvTnI7x1lNC3LV?usp=sharing > 참고: 혼자 공부하는 머신러닝+딥러닝

2022년 11월 15일
·
0개의 댓글
·
post-thumbnail

파이썬 머신러닝 완벽 가이드 - 6. Regression(1) (경사하강법, 평가지표, 선형회귀)

Regression 회귀 : 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법 : 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것 회귀계수: 독립변수 값에 영향을 미치는 Wn | 독립변수 갯수 | 회귀 계수의 결합 | | --- | --- | | 1개 : 단일 회귀 | 선형 : 선형 회귀 | | 1개(n) ⁍ : 다항 회귀 | 선형 : 선형 회귀 | | 여러개 : 다중 회귀 | 비선형 : 비선형 회귀 | 선형 회귀 : 실제 값과 예측 값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식 일반 선형 회귀 : 실제-예측값의 RSS(Residual잔여의 Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제를 적용하지 않은 모델 릿지 : 선형 회귀 + L2 규제 ⇒ L2 : 상대적으로 큰 회귀 계수 값의 예측 영

2022년 10월 5일
·
0개의 댓글
·
post-thumbnail

딥러닝을 배워봅시다#3 그런 당신을 위해 준비 했습니다 - Gradient descent

자, 전 포스트까지 읽었다면 질문이 들것이다. > 아니 선생님, 그래서 어떻게 계산하는거죠? Good Question! 좋은 질문이다. *_사실 딥러닝을 활용하는 측면에 있어서는 이것에 대해서 수식까지 정확하게 알 필요는 없다고 생각한다. 오히려 특정 상황에 맞추어 각 변수들을 잘 조정하는 것이 훨씬 더 중요하다고 생각한다. 그러니 이해가 되지 않아도 그냥 눈으로 읽어보고 뭔지 모르겠으면 포스트의 마지막을 잘 기억하자_* 일단 loss function 에 대한 이해가 필요하다. > **loss function = y - y'(y : 실제값, y' : 예측값) **loss function은 우리가 모델을 통해 예측한 값과 실제 값이 얼마나 떨어져 있는가? 에 대한 함수이다. 물론 정말로 그대로 빼기 연산을 하는 것은 아니고, 예를 들어 설명한 것이다. ![](https://velog.velcdn.com/images/harrysong961205/post

2022년 8월 13일
·
0개의 댓글
·
post-thumbnail

PyTorch 익히기 - Linear Regression & Gradient Descent

Pytorch를 간단히 다루어본 적이 있는데, 앞으로의 연구에 익숙하게 활용하기 위해 Pytorch 내용을 정리해보려 한다. 대부분의 내용은 유튜브의 '모두를 위한 딥러닝 시즌2'를 참고하였다. 기본적인 딥러닝 내용은 어느 정도 알고있다고 가정하고, PyTorch 실습 내용 위주로 정리해두었다. 간단한 설명이 포함된 실습 자료는 다음 Github를 참조하자. 1. Linear Regression 개요 Linear Regression은 인공지능 뿐만 아니라 통계학에서도 매우 많이 사용되는 기본 개념이다. 일반적인 linear regression은 하나 이상의 설명 변수(explanatory

2022년 7월 11일
·
0개의 댓글
·
post-thumbnail

3. 경사하강법 (gradient descent)

학습목표 >- 미분의 개념과 gradient vector에 대해 공부 경사하강법 (gradient descent)의 알고리즘과 실제 코드에서의 구현 접선의 기울기를 이용해서 함수의 최솟값으로 점을 이동시키는 원리를 알면 이를 바탕으로 경사하강법의 알고리즘과 수식을 이해 특히 변수가 벡터인 경우, 편미분을 통해서 구한 그래디언트 벡터를 통해 d-차원으로 경사하강법을 확장할 수 있다는 개념 1. 미분 >- 기울기 = 점 x와 h만큼 이동한 (x+h) 움직인 거리 h로 나눠주었을 때 ![](https://velog.velcdn.com/images/leejy1373/post/d90c3f56-a891-48a7-90e7

2022년 7월 11일
·
0개의 댓글
·

[딥러닝] 보스턴 주택 가격 예측하기 (MSE 계산, 경사하강법)

이번 게시물에서는 파이썬 코드로 직접 MSE를 계산하고 경사하강법을 적용하여 보스턴 주택 가격을 예측해보는 코드를 리뷰해보겠습니다! 모든 이미지 출처 : 인프런 딥러닝 CNN 완벽 가이드 - Fundamental 편 MSE 직접 계산하여 경사 하강법에 적용 처음으로는 보스턴 주택 데이터를 가져오기 위해 sklearn 의 load_boston을 사용합니다. 가져온 loadboston을 데이터 프레임으로 만들어주고, 각 열은 boston.featurenames 로 만들어줍니다. (1) 가중치 업데이트 함수 만들기 ! ![](https://raw.githubusercontent.com/chulminkw/CNN_PG/ma

2022년 7월 2일
·
0개의 댓글
·
post-thumbnail

Stochastic Gradient Descent

딥러닝의 중요한 포인트. Gradient descent, Stochastic gradient descent, mini batch stochastic gradient descent. Q. Gradient Descent 알고리즘이 뭐에요? A. Gradient descent 알고리즘이란 loss function 에서의 최소값을 찾는 알고리즘입니다. 이는 기울기의 반대 방향으로 일정 크기만큼 이동하는 것을 반복하면 이뤄냅니다. Q. Stochastic gradient descent 가 왜 제시되었나요? A. Stochastic gradient descent 은 batch gradient descent 의 단점을 커버하기 위해 제시되었습니다. Batch gradient descent 은 global minima 를 보장하지만 연산량이 어마어마했습니다. 하지만 stochastic gradient descent 은 매 데이터포인트마다 gradient descent 을 접목

2022년 7월 1일
·
0개의 댓글
·
post-thumbnail

Gradient Descent 모델 구현

시작하기 나이를 기준으로, 키를 예측하는 선형 예측 회귀 모델을 생성하자. 목표: 오차함수로, MSE를 사용하고 오차를 줄이기 위해 Gradient Descent를 사용하자. Feature Vector 생성하기 모델 구현의 편의를 위해, Feature Vector(나이)의 차원은 1D로 사용한다. 사용될 데이터는 x 는 총 16개이다. 입력 벡터의 종속 변수(함수 값 y)인 Target Value(키)를 생성하자. 참고: np.random.rand(d0,d1..dn)은 단변량 가우시안 분포로 평균 0 분산 1인 난수를 주어진 Shape로 생성한다. 참고: np.savez는 numpy 배열을 저장하는 확장자로 np.load를 통해 저장한 데이터를 불러올수 있다. 각 입력 데이

2022년 4월 25일
·
0개의 댓글
·
post-thumbnail

목적함수(Objective Function)

Keywords Objective Function MSE Independent Variable, Dependent Variable Regression Objective Function 신경망의 학습능력을 평가하는 지표이다. 출력층의 예측값 (가중치+편향)과 실제값의 차이를 수학적으로 접근하는 기법이다. > The primary focus of this article is the evaluation component (objective functions or loss functions) of the ML tasks, and is divided into the following sections: Objective functions for regression Objective functions for classification 출처: https://medium.com/@bhanuyerra/objective-functions-used-in-machin

2022년 4월 15일
·
0개의 댓글
·
post-thumbnail

Python 경사하강법(BGD), 확률적경사하강법(SGD), 미니배치 구현하기

경사하강법의 종류 BGD(Batch Gradient Descent): 전체 학습 데이터를 기반으로 계산 예를들어 피처가 100개라고 생각하면 뉴럴네트워크에서 weight의 개수가 기하급수적으로 증가한다. 이를 GD로 계산하는데는 많은 computing자원이 소모된다. 이를 극복하기 위해 SGD와 Mini-Batch 방법론이 생성되었다. SGD(Stochastic Gradient Descent): 전체 학습 데이터 중 한 건만 임의로 선택하여 계산 Mini-Batch GD: 전체 학습 데이터 중 특정 크기만큼(Batch 크기)임의로 선택해서 계산 (대부분의 딥러닝 Framework에서는 MiniBatch 사용) BGD(Batch Gradient Descent): 데이터셋 모두를 대상으로 하다 보니 계산해야 할 값이 지나치게 많아 계산의 시간도 길어지고 소모되는 메모리의 양도 많다. 안정적으로

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

Gradient Descent (경사하강법)과 기초 수학

Keywords Gradient Descent (경사하강법)은 예측값과 타겟값의 차이를 최소 또는 0으로 만들기위해 사용되는 테크닉중 하나이다. (머신러닝의 기본은 최적값, Optimization을 하는 과정) 아래 키워드는 Gradient Descent를 이해하기위한 키워드를 정리한것이다. Objective Function MSE (Mean Squared Error) Limit of Function (함수의 극한) Derivative (도함수) Partial Derivative (편미분) Chain Rule (다변수 함수의 편미분, 연쇄법칙) Learning Rate Objective Function 설계한 모델의 학습 성능을 평가하는 지표. MSE 예측값과 실제값 차이를 구하는 수학적 표현. ${1\over N}\sum\limits_{n=1}^{N}(\hat y-y)^2$ | $\hat y$: 예측값, $y$: 실제값

2022년 4월 3일
·
0개의 댓글
·