"환경(Environment) 유형"은 에이전트가 상호작용하는 환경의 특성을 나타내며, 에이전트 시스템을 이해하고 모델링하는데 중요한 개념이다.
에이전트의 환경 유형은 에이전트 시스템을 설계하고 문제를 해결할 때 고려해야 할 중요한 요소 중 하나 이다. 각 유형은 에이전트의 상호작용과 목표에 대한 도전과 고려해야 할 사항을 정의한다.
Environment Types
1. Fully Observable vs Partially Observable
Fully Observable (완전 관찰 환경)
- 에이전트가 환경의 모든 상태와 상황을 완전히 인식할 수 있는 환경
- 현재 상태를 정확하게 인식하고 목표를 달성하는 결정을 내릴 수 있다.
Partially Observable (부분 관찰 환경)
- 에이전트가 환경의 일부 상태 또는 일부 정보만을 인식할 수 있는 환경
- 에이전트는 불확실정을 다루어야 하며, 현재 상태를 예측하고 추론하는 데 필요한 논리 및 추론 능력을 필요로 한다.
2. Single Agent vs Multi Agent
Single Agent (단일 에이전트 환경)
- 하나의 에이전트가 환경과 상호작용 하며 목표를 달성하는 환경
Multi Agent (다중 에이전트 환경)
- 여러 개의 에이전트가 상호작용하고 경쟁 또는 협력하여 목표를 달성하는 환경
3. Deterministic vs Stochastic
Deterministic (결정적 환경)
- 에이전트의 행동에 따라 환경 상태가 항상 동일하게 변화한다.
- 예측 가능하고 안정적이다.
Stochastic (확률적 환경)
- 에이전트의 행동에 따라 환경 상태가 확률적으로 변화하며 불확실성을 동반한다.
4. Episodic vs Sequential
Episodic (에피소드 별 환경)
- 에이전트의 각 작업 또는 상호작용이 독립된 에피소드로 구성된다.
- 각 에피소드는 다른 에피소드와 무관하며, 에이전트는 각 에피소드에서 목표를 달성하려고 한다.
Sequential (순차적 환경)
- 에이전트의 작업이 이전 상호작용과 상호 연결되어 현재 작업은 이전 작업의 결과에 의해 영향을 받는다.
5. Static vs Dynamic
Static (정적 환경)
- 정적 환경은 에이전트와 상호작용 하며 변경되지 않으며, 시간에 따른 변화가 없는 환경이다.
Dynamic (동적 환경)
- 동적 환경은 시간이 경과함에 따라 변화하고 업데이트 되며, 에이전트는 시간에 따른 변화에 대비하여 행동한다.
6. Discrete vs Continuous
Discrete (이산 환경)
- 상태, 액션 및 값이 이산적으로 정의되는 환경이다.
Continuous (연속 환경)
- 상태, 액션 및 값이 연속적인 볌위 또는 값을 가질 수 있는 환경이다.
예시

Solitaire
- Solitaire의 경우 완전 관찰 환경(Observable)으로 에이전트가 항상 환경의 모든 상태와 상황을 인식할 수 있다.
- Solitaire의 경우 결정적 환경(Deterministic)으로 에이전트의 행동에 따라 환경 상태가 항상 동일하게 변화하므로 예측 가능하고 안정적이다.
- Solitaire의 경우 순차적 환경(Sequential)으로 에이전트의 작업이 이전 상호작용과 상호 연결되며 현재 작업은 이전 작업의 결과에 의해 영향을 받는다.
- Solitaire의 경우 정적 환경(Static)으로 시간에 따른 변화가 없는 환경이다.
- Solitaire의 경우 이산 환경(Discrete)으로 이산적인 값으로 정의되는 환경이다.
- Solitaire의 경우 단일 에이전트 환경(Single-Agent)으로 하나의 에이전트가 환경과 상호작용하며 목표를 달성하는 환경이다.
Backgammon
- Backgammon의 경우 완전 관찰 환경(Observable)으로 에이전트가 항상 환경의 모든 상태와 상황을 인식할 수 있다.
- Backgammon의 경우 확률적 환경(Stochastic)으로 에이전트의 행동에 따라 환경 상태가 확률적으로 변화하며 불확실성을 동반한다.
- Backgammon의 경우 순차적 환경(Sequential)으로 에이전트의 작업이 이전 상호작용과 상호 연결되며 현재 작업은 이전 작업의 결과에 의해 영향을 받는다.
- Backgammon의 경우 정적 환경(Static)과 동적 환경(Dynamic)의 중간으로 시간에 따른 변화는 없지만 에이전트의 행동에 따라 시간에 따른 변화가 있을 수 있다. (상대와 대결을 펼치는 것이므로 서로 상호작용을 하며 시간에 의한 변화가 있다고 볼 수도 있다.)
- Backgammon의 경우 이산 환경(Discrete)으로 이산적인 값으로 정의되는 환경이다.
- Backgammon의 경우 다중 에이전트 환경(Multi-Agent)으로 여러 개의 에이전트가 상호작용하고 경쟁하며 목표를 달성하는 환경이다.
- Internet Shopping의 경우 부분 관찰 환경(Partial Observable)으로 에이전트가 환경의 일부 상태 또는 일부 정보만을 인식할 수 있다.
- Internet Shopping의 경우 부분적인 결정적 환경(Deterministic)으로 대부분의 경우 에이전트의 행동에 따라 환경 상태가 항상 동일하게 변화하여 예측 가능하고 안정적이나 일부 특수한 경우(수량 선택, 입력 등) 환경 상태가 변할 수 있다. 그러나 기본 환경 상태에서 크게 다르지 않으므로 불확실성을 동반하진 않아 부분적이라고 할 수 있다.
- Internet Shopping의 경우 순차적 환경(Sequential)으로 에이전트의 작업이 이전 상호작용과 상호 연결되며 현재 작업은 이전 작업의 결과에 의해 영향을 받는다.
- Internet Shopping의 경우 정적 환경(Static)과 동적 환경(Dynamic)의 중간으로 시간에 따른 변화는 없지만 에이전트의 행동에 따라 시간의 따른 변화가 있을 수 있다. (페이지 이동에 따라 환경이 바뀔 수 있다.)
- Internet Shopping의 경우 이산 환경(Discrete)으로 이산적인 값으로 정의되는 환경이다.
- Internet Shopping의 경우 단일 에이전트 환경(Single-Agent)으로 하나의 에이전트가 환경과 상호작용하며 목표를 달성하는 환경이다. 그러나 예외적으로 옥션(Auction)의 경우 다중 에이전트 환경(Multi-Agent) 환경이다.
Taxi
- Taxi의 경우 부분 관찰 환경(Partial Observable)으로 에이전트가 환경의 일부 상태 또는 일부 정보만을 인식할 수 있다.
- Taxi의 경우 확률적 환경(Stochastic)으로 에이전트의 행동에 따라 환경 상태가 확률적으로 변화하며 불확실성을 동반한다.
- Taxi의 경우 순차적 환경(Sequential)으로 에이전트의 작업이 이전 상호작용과 상호 연결되며 현재 작업은 이전 작업의 결과에 의해 영향을 받는다.
- Taxi의 경우 동적 환경(Dynamic)으로 시간이 경과함에 따라 변화하고 업데이트 되며, 에이전트는 시간에 따른 변화에 대비하여 행동한다.
- Taxi의 경우 연속 환경(Continuous)으로 연속적인 범위 또는 값을 가질 수 있는 환경이다.
- Taxi의 경우 다중 에이전트 환경(Multi-Agent)으로 여러 개의 에이전트가 상호작용하고 협력하여 목표를 달성하는 환경이다.