비지도 : input 만 주어짐, hidden 패턴 학습
강화 학습 : 피드백을 받음, 보상(reward)을 극대화 하며 모델을 학습함
강화학습의 요소
Agent
Policy
Value function
Model
Model(based vs free)을 구별하는 방식은 ?
ex 예시)
미로에서 공은 정지되지 않는 방향으로 극대화 된다
계속 positive reward를 찾는 방식
목표 : 목적지에 도달
agent : 공 / 환경 : 미로 / 상태(status) : 공의 위치 / reward(보상) : 공이 멈추지 않을 때
강화학습 환경
결정적 환경 : 현재 상태 기반으로 작업 결과를 아는 경우 - 체스
확률적 환경 : 현재 상태 기반으로 결과를 모를 때 - 주사위
완전한 관찰 : agent 상태를 항상 파악 가능 - 체스
부분적 관찰 : agent 상태를 항상 파악 불가 - 포커
개별 환경 : agent 상태 변경이 제한적 - 체스
지속 환경 : agent 상태 변경이 무한 - 자율주행
에피소드 환경 : 하나씩 진행, 종료 시점이 있음 (1~10km 가속시 1초, 1일 등)
비 에피소드 환경 : 미래에 영향을 끼침, 가상 비서 채팅
Docker란 ?
컨테이너란 ?
컨테이너의 장점