[Reinforcement Learning] A2C

REINFORCE 알고리즘은 정책을 업데이트 하기 위해서 M개의 에피소드가 끝날 때 까지 기다려야하며, 그래디언트의 분산이 매우 크다는 단점이 있다. 이를 개선하기 위해 제시된 알고리즘이 어드벤티지 액터-크리틱(A2C, Advantage actor-critic)이다.

2021년 10월 13일
·
0개의 댓글
·

[Reinforcement Learning] Value-based Methods / Policy-based Methods

Value-based Methods Value-based Method에는 대표적으로 Q-Learning, Deep Q-Learning 등이 있다. Value function에 의해서 각각의 state마다 action에 대해서 가치(value)를 판단한다. 이를 통해서

2021년 10월 13일
·
0개의 댓글
·

[Reinforcement Learning] Policy Iteration / Value Iteration

벨만 방정식은 dynamic programming(DP)로 풀 수 있고, 이는 정책 이터레이션(Policy Iteration)과 가치 이터레이션(Value Iteration)으로 나뉜다. 정책 이터레이션은 탐욕적인 search 방법론이다.이는 정책에 따라 목표에 빠르게

2021년 10월 13일
·
0개의 댓글
·

[Reinforcement Learning] 강화학습 핵심 개념

인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러

2021년 10월 7일
·
0개의 댓글
·

[Reinforcement Learning] MDP (Markov Decision Process)

인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러

2021년 10월 1일
·
0개의 댓글
·
post-thumbnail

[Ubuntu 18.04] VScode 한글 입력 시 받침 밀림 현상

우분투 환경에서 한글을 사용하다보면 인코딩 타입이 utf-8로 설정되어 있음에도 불구하고 한글 입력 시 받침이 밀리는 경우가 있다.ex. 감 -> 가ㅁ이 경우 간단한 설정을 해주면 해결된다.VScode에서 File -> Settings -> Text Editor ->

2021년 10월 1일
·
0개의 댓글
·

[Terminal] tar 파일 압축 한번에 풀기

linux tar / tar.gz 형식의 여러개 파일 한번에 압축 풀기tar.gz 형식의 파일인 경우 :tar 형식의 파일인 경우 :

2021년 8월 9일
·
0개의 댓글
·
post-thumbnail

[NLP] Pre-trained Methods (ELMo, GPT, BERT)

2017년 transformer 논문이 게재된 후 다양한 pre-trained model들이 제시되었다. 그 중 이번 글에서는 대표적인 pre-training method인 ElMo, GPT, BERT를 짧게 소개하려고 한다. ELMo ELMo는

2021년 6월 1일
·
0개의 댓글
·

[Shell Script] nohup으로 실행한 프로세스 종료

이전 포스트에서 딥러닝 훈련 시 다양한 하이퍼파라미터에 대한 실험을 진행하기 위한 bash 파일을 만들고, 이를 실행하는 법을 다뤘다.bash 파일 작성 및 실험 링크일반적으로 터미널에서 ctrl+c를 누르면 종료할 수 있지만, 백그라운드로 돌리게되면 이 방법으로 실험

2021년 5월 24일
·
0개의 댓글
·
post-thumbnail

[GAN] Introduction

2014년 Ian Goodfellow는 새로운 네트워크를 발표하였고, 그 네트워크의 이름은 GAN이였다. 기존에 제시되었던 다양한 네트워크들의 변형이 아닌 완전히 새로운 네트워크를 제시한 것이다. 자세히 살펴보면, 고양이인지 아닌지를 구별하는 네트워크가 존재한다고 하자

2021년 5월 19일
·
0개의 댓글
·
post-thumbnail

[NLP] Transformer

Transformer은 Google이 발표한 [Attention is all you need]에서 제시된 모델이다. 이 논문은 기존의 attention을 활용하여 seq2seq를 구현하면서 성능과 속도의 개선을 보였다. 먼저 transformer의 구조는 아래와 같다

2021년 5월 17일
·
0개의 댓글
·
post-thumbnail

[NLP] Machine Translation

Translation(번역)의 궁극적 목표는 어떤 언어의 문장이 주어졌을 때, 가능한 언어의 번역 중에서 최대 확률을 갖는 언어의 번역을 찾아내는 것이다. Rule-Based Machine Translation(RBMT)는 주어진 문장의 구조를 분석하고, 규칙을 세우고

2021년 4월 30일
·
0개의 댓글
·
post-thumbnail

[NLP] Language Modeling

Language Modeling은 문장의 확률을 나타내는 모델이다. 즉, 언어 모델을 통해 문장의 출현 확률을 예측하거나, 이전 단어가 주어졌을 때 다음 단어를 예측할 수 있고, 결과적으로 주어진 문장이 얼마나 자연스럽고 유창한 표현인지 계산할 수 있다. 언어 모델을

2021년 4월 30일
·
0개의 댓글
·
post-thumbnail

[NLP] LSTM

RNN은 time-step이 커지게 되면 gradient vanishing 문제가 발생한다. 이러한 단점을 보완하여 제시된 모델이 LSTM이다. 먼저, LSTM의 구조는 아래와 같다.LSTM 구조LSTM은 기존 RNN의 hidden state외에도 별도의 cell st

2021년 4월 30일
·
0개의 댓글
·

[Anaconda] 가상환경 옮기기

Deep learning 실험 시 모델에 맞게 새로운 가상환경을 항상 만드는 편이다.사용 가능한 서버가 여러 개 있을 경우 매번 가상환경을 만드는 일은 상당히 번거로운 작업이다.이 때, 현재 가상환경에 설치된 파일과 환경 이름 등 anaconda 환경을 그대로 옮길 수

2021년 4월 30일
·
0개의 댓글
·

[Anaconda] 가상환경 삭제

아나콘다 가상환경 삭제:$ conda remove -n @가상환경 이름 --allproceed -> yes삭제 완료!!

2021년 4월 30일
·
0개의 댓글
·

[Anaconda] Anaconda 가상환경 이름 변경

Anaconda를 사용하면서 항상 가상환경을 활성화 시켜놓고 프로그래밍을 하는 편인데, 처음에 이름을 너무 복잡하게 해서 이름을 변경하기 위해 검색해보니, 가상환경의 이름을 변경하는 기능은 없다고 한다.그래서, 현재 사용하는 가상환경을 다른 이름으로 복사하고, 그 전에

2021년 4월 30일
·
0개의 댓글
·
post-thumbnail

[NLP] RNN

Vanilla neural network 참조 [1] 김기현의 자연어 처리 딥러닝 캠프(파이토치 편)

2021년 4월 28일
·
1개의 댓글
·
post-thumbnail

[NLP] Word Embedding

자연어처리에서는 각 단어가 갖는 의미가 서로 연관성이 있을 때도 있지만, 형태가 다른 경우 겉으로 보이는 형태만으로는 파악하기 어렵다. 따라서, 단어나 문장, 문서 전체를 벡터로 나타내는 것은 불가피하다. 이러한 이유로 자연어를 벡터로 mapping 해주는 함수를 만드

2021년 4월 27일
·
0개의 댓글
·

[NLP] NLP 소개

NLP(자연어 처리) : 인공지능의 한 분야로써 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 최종 목표 : 컴퓨터가 사람의 언어를 이해하고 여러가지 문제를 수행할 수 있도록 하는 것 대표적인 task : \-Sentimental Analysis (감성

2021년 4월 27일
·
0개의 댓글
·