시리즈

머신러닝

1.머신러닝 기초

일반 소프트웨어와 다르게 머신러닝 기반 소프트웨어는 데이터와 사용된 알고리즘에 따라 때로는 다른 결과를 추론해낸다.머신러닝이란 데이터와 알고리즘을 기반으로 추론하는 프로그램이라고 정의할 수 있다.Untitled지도학습: 정답을 알려주면서 진행되는 학습, 주로 주어진 데

2024년 1월 3일

2.딥러닝 기초

머신러닝 라이브러리: tensorflow, pytorch, keras텐서플로우Tensor란 많은 데이터를 효과적으로 처리하는 자료구조를 말하며 다차원 array, list라고 생각하면 편하다. 즉 모든 계산을 쉽게 하기 위해서 각각의 연산을 잘게 쪼개고 이것을 Grap

2024년 1월 3일

3.CNN

CNN(컨볼루션 신경망) Convolution Layer 컨볼루션 레이어는 입력 이미지를 Kernel(Filter)을 이용하여 탐색하면서 이미지의 특징들을 추출하고, 추출한 특징들을 Feature Map으로 생성한다. Feature Map은 Kerne

2024년 1월 3일

4.딥러닝 cat and dog 문제

cat and dog 개와 고양이 사진을 분류하는 캐글 문제 Model: "sequential" Layer (type) Output Shape Param conv2d (Conv2D) (None, 150, 150, 32) 896 m

2024년 1월 3일

5.바닥부터 배우는 강화학습1 MDP

마르코프 결정 프로세스 Untitled 1. 마르코프 프로세스: 미래는 현재에 의해서만 결정됨 상태 상태 전이: 현재 상태에서 다음 상태로 넘어 종료 상태: 마르코프 프로세스의 끝 $$ MP =(S,P) $$ 전이 확률: 상태 s에서 다음 상태

2024년 1월 3일

6.바닥부터 배우는 강화학습2 벨만 방정식

벨만 방정식 주어진 상태의 가치를 구하는 방법 현재 시점 t와 다음 시점 t+1의 재귀적 관계를 이용 1. 벨만 기대 방정식 어떤 정책 π를 평가하고 싶을 때 사용 Untitled 0단계 $$ vπ(st)=Ε[r{t+1}+γvπ(s_{t+1})

2024년 1월 3일

7.바닥부터 배우는 강화학습3 DQN의 필수요소

익스피리언스 리플레이타깃 네트워크에피소드는 여러 개의 상태 전이로 이루어져 있다.상태 전이: “상태 St에서 액선 At를 했더니 보상 Rt를 받고 다음 상태 St+1에 도착”하나의 상태 전이는 곧 하나의 데이터리플레이 버퍼:버퍼에 가장 최근의 데이터 n개를 저장해 놓음

2024년 1월 3일

8.바닥부터 배우는 강화학습4 알파고와 MCTS(1)

알파고와 MCTS 알파고: 학습 + 실시간 플래닝 학습: 알파고가 이세돌을 만나기 전에 이루어지는 과정 실시간 플래닝: 이세돌과의 대국 도중에 실시간으로 어디에 바둑알을 놓을지 고민하는 과정 MCTS(Monte Carlo Tree Search): 실시간 플래

2024년 1월 3일

9.바닥부터 배우는 강화학습4 알파고와 MCTS(2)

MCTS(Monte Calro Tree Search) 주어진 상황에 특화된 해를 찾는데 쓰이는 플래닝 알고리즘 그 상황에서만 사용할 수 있기 때문에 보편적 상황에서는 성능이 떨어짐. 다양한 액션을 취해보고 가장 좋았던 결과의 액션을 채택. “그냥 많이 둬 보는” 방법

2024년 1월 3일