#2. 다중 선택

강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침(Instruct)가 아닌 행동의 좋고 나쁨을 평가(Evaluate)하는 훈련 정보를 사용하는 것이다. 때문에 강화학습은 좋은 행동을 찾기 위한 탐색이 필요하다. 이 평가는 취

2022년 5월 13일
·
0개의 댓글

헤픈 우연

'처음이라기엔 너무 길을 이미 다 아는듯이우연이라기엔 모두 다 정해진듯이'가끔씩 세상은 어느정도 결정되어 있고시간은 그에 맞춰서 지나가버리는게 아닌가하는 생각이 들때가 있다.세상의 다양함에 비해의식의 공간이 너무나 좁을 까닭일까아니면 나라는 에이전트가 변화에 너무 소극

2022년 5월 13일
·
0개의 댓글

#1. 소개(2)

강화학습은 1) 동물 심리학에서 유래된 시행착오학습, 2) 가치 함수와 동적 프로그래밍을 이용하는 최적 제어의 문제와 해결책, 3) 시간차 방법세 가지의 갈래가 1980년대 후반에 모여서 현대 강화학습을 만들어냈다.최적 제어 : 어떤 동역학 시스템에 시간에 따른 결과를

2022년 5월 9일
·
0개의 댓글
post-thumbnail

#1. 소개(1)

학습 : 주변 환경과 상호작용을 통해 배우는 것강화학습 : 인공지능 연구자나 엔지니어의 시각에서 컴퓨터를 활용하는(Computational) 상호작용으로, 이상적인 학습 환경에서 다양한 방법이 가지는 효과를 수학적 분석과 컴퓨터 실험을 통해서 분석한다.'학습자(Agen

2022년 5월 9일
·
0개의 댓글

#09. 정책 기반 에이전트

가치 기반 에이전트는 가치 함수를 통해 액션을 선택하기 때문에 정책 함수가 없었지만, 정책 기반 에이전트는 정책 함수를 가진다.가치 기반 에이전트가 액션을 선택하는 방식은학습이 완벽하게 끝났다고 가정하면, 각 상태와 액션이 가지는 가치들을특정한 값으로 수렴하기 때문에,

2022년 5월 8일
·
0개의 댓글

재밌는 코딩 '-'

아이펠 과정은, AI 교육이고...분명 파이썬 하나도 몰라도 된다고 하긴 해서야금야금 공부할 시간이 없는건 아니지만사실은 기본적으로 코드에 대한 base가 많으면 많을수록 유리한거 같다.아니 일단 AI자체를 코드로 만든다구요!이건 마치 영어로 글쓰기 잘하는법! 교실에서

2022년 5월 6일
·
0개의 댓글

#08. 가치 기반 에이전트

MDP를 모르는 상태에서, 상태의 집합 S와 액션의 집합 A가 너무나도 커서밸류들을 테이블에 담지 못하는 상황에서는 뉴럴넷을 사용할 수 있다.강화학습과 뉴럴넷을 접목하는 방식은 크게 두 가지로상태 가치함수 vπ(s)나 액션 가치함수 qπ(s,a)를 뉴럴넷으로 표현하거나

2022년 5월 5일
·
0개의 댓글

#07. Deep RL 첫 걸음

그리드 월드의 경우 state가 16개밖에 되지 않았지만,대부분의 경우 고유한 state가 연속적인 값들을 가질 수 있으므로물리적으로 테이블을 만들어 업데이트를 하기는 쉽지 않아진다.때문에 정확한 실제 가치 함수를 구하는 것이 아니라데이터들을 잘 설명할 수 있는 근사함

2022년 5월 5일
·
0개의 댓글

#06. MDP를 모를 때 최고의 정책 찾기

4장에서 배운것을 다시 상기하면, MDP를 알 때(정책 평가 -> 정책 개선)을 반복적으로 수행하여최적 정책과 최적 밸류를 찾아가는 방식을 사용했다.5장에서 MDP를 모를 때MC, TD를 통해서 정책을 평가하는 법을 배웠으니이제 최고의 정책을 찾는 방법을 찾아보려고 한

2022년 5월 5일
·
0개의 댓글

#05. MDP를 모를 때 밸류 평가하기

MDP를 모르는 경우, 다시말해 보상 함수 r^a_s와 전이확률 P^a_ss'을 모르는 경우에는 액션을 해보기 전까지는 보상도, 어떤 상태로 이동할지도 모르게 된다.이런 상황을 액션에 대한 환경의 반응을 모르므로, 모델을 세울 수 없는 모델 프리한 상황이라고 한다.어떤

2022년 5월 5일
·
0개의 댓글

#04. MDP를 알 때의 플래닝

기본적으로 MDP를 안다는 것은 상태s에서 액션a에 대한 리워드(r^a_s)를 안다. 상태s에서 액션a를 했을때 상태가 어떻게 변화할지에 대한 확률 R^a_ss(전이확률행렬)을 안다는 것이다. 혹은 상태의 집합 S나, 액션의 집합 A가 작은 경우, 위 정보들을 알아내

2022년 5월 4일
·
0개의 댓글

#03. 벨만 방정식

어떤 정책 π에 대해서 많은 상태의 밸류를 구하는 방법은 어려운 일이기 때문에, 임의로 초기화되어 있는 값들에 시행착오를 거쳐 밸류를 구하게 되는데, 이 과정에서 벨만 방정식을 사용한다.벨만 방정식은 자기 자신과의 관계를 이용해 자기 자신을 표현하는 재귀관계에 있으며,

2022년 5월 4일
·
0개의 댓글

공부 너무 좋아 소년

오랫만에 쓰는 생각 정리다...블로그를 쓰다보니 글을 쓰고 싶어졌어ㅋㅋ이제 만으로 나이를 내려도 35살첫사랑이랑 결혼했으면 아들/딸이 고등학생(?)인데 말야죽을때까지 하는게 공부라지만이제는 어느정도 사회적인 성공을 베이스로 해야할 나이에아직도 방황하고 있는것만 같아서

2022년 5월 4일
·
0개의 댓글

#02. 마르코프 결정 프로세스

마르코프 프로세스 : 미리 정의된 확률 분포에 따라 여러 상태를 이동하는 것, 하나의 상태에서 다른 상태로 변화할 확률들의 합은 100%가 된다.상태의 집합 S : 에이전트가 가질 수 있는 모든 상태들전이 확률 P_ss': 에이전트가 상태 s에서 상태 s'으로 변화할

2022년 5월 4일
·
0개의 댓글

#01. 강화학습이란

지도학습 학습데이터를 통해 인풋과 아웃풋 사이의 관계를 파악. 트레이닝 데이터의 피쳐들을 통해 데이터와 정답 사이를 알아내고 테스트 데이터에 적용해본다. feature를 직접 줄 수도 있으나, 요즘은 딥러닝(Deeplearning)을 통해 피쳐를 자동으로 추출하여 학

2022년 4월 26일
·
0개의 댓글

텐서플로 함수들 정리

원본 텐서가 (6,)의 차원을 가지는 0, 1, 2, 3, 4, 5라고 했을 때, 변환 텐서 차원이 2, 3이라고 하면\[ 0,1,23,4,5 ] 의 형태로 변환해준다. 행렬과 마찬가지로 앞쪽이 행, 뒤쪽이 열임에 유의numpy의 경우 np.arrange(원본 텐서)

2022년 4월 7일
·
0개의 댓글

데이터 스크래핑 개요

웹 스크래핑 : 웹에서 중요한 파일들만 긁어오는 것웹 크롤링 : 무지성으로 다 긁어오는 것웹 사이트 3대 요소HTML : 뼈대를 만들기CSS 디자인요소를 담당함JS : 유용한 것들을 만드는 툴웹 크롤링의 허용 범위결론적으로 합법, 검색엔진도 어떻게 보면 일종의 크롤링을

2022년 4월 7일
·
0개의 댓글

최소 제곱법(2)

Projection (사영)해가 떴을때 나타나는 그림자의 모양이나 위치Orthogonal projection수직일 때에 해당함b -> b^hat = Ax^hat을 나타낼때평면 space위에 점 b에 수직으로 내린 수선의 발의 위치사영으로 나타 낼 수 있음어떤 차원에서

2022년 3월 23일
·
0개의 댓글

최소제곱법(1)

선형방정식에서방정식의 개수(데이터의 수) >>변수(feature)의 개수인 경우 = overdetermined system = solution이 없는 경우상수벡터(b)의 span이 데이터의 개수의 차원(D)에 포함될 확률이 희박함같은 차원에 존재하는 벡터 u, v에 대

2022년 3월 16일
·
0개의 댓글

자영업자의 고뇌?

코로나 이전부터 여러가지 이유로취업이 힘들고, 취업해서도 힘들고, 퇴직하고나서도 힘들다보니어린나이 혹은 많은 나이에도 불구하고자영업에 뛰어드는 사람들을 많이 봐왔다.물론 나도 그중 하나였으니까많은 도전과 실패를 자연스럽게 같이 봐왔기에 잘 알고 있다.직종에 따라 자영업

2022년 3월 15일
·
0개의 댓글