결정영역(decision region): 클래스 i에 속하는(속한다고 판단되는) 모든 x의 집합
Ri = {x : pred(x) = Ci}
분류오류 확률(probability of misclassification)
p(mis) = p(x ∈ R1, C2) + P(x ∈ R2, C1)
아래 그림에서 색칠된 세 영역의 넓이의 합이 분류오류확률이다. 녹색 + 파란색 영역의 합은 불변이지만, 빨간색 영역을 최소화하는 x를 찾으면 오류를 최소화할 수 있다.
오류를 최소화하려면 다음조건을 만족하는 x를 R1에 할당해야 한다.
p(x, C1) > p(x, C2)
⇔ p(C1|x)p(x) > p(C2|x)p(x)
⇔ p(C1|x) > p(C2|x)
결합확률분포 p(x, Ck)가 주어졌을 때 최적의 결정영역들 R1, ... , Rk를 찾는 것
⇒ 즉, x가 주어졌을 때 예측값(1, ... , K 중의 값)을 돌려주는 함수 ^C(x) 중 '최적의 함수'를 찾는 것
모든 결정이 동일한 리스크를 갖는 것은 아니다! 손실행렬 L이 주어졌을 때 기대손실을 최소화하자.
여기서부터 상당히 이해가 어려웠다. 추후에 여기를 참고하여 조금 더 정리할 것.
목표값 t ∈ R
손실함수: L(t, y(x)) = {y(x) - t}^2
손실함수의 기댓값을 최소화하는 함수 y를 구하는 것이 목표!
y(x) = Et[t|x]
(x가 주어졌을 때 t의 기댓값)이다.확률모델에 의존하는 경우
- 생성모델(generative model): 먼저 각 클래스 Ck에 대해 분포 p(X|Ck)와 사전확률 p(Ck)를 구한 다음 베이즈정리를 사용해서 사후확률 p(Ck|x)를 구한다. 결합분포에서 데이터를 샘플링해서 '생성'할 수 있으므로 생성모델이라고 부른다.
- 식별모델(discriminative model): 모든 분포를 다 계산하지 않고 오직 사후확률 p(Ck|x)을 구한다.
판별함수에 의존하는 경우
- 판별함수(discriminant function): 입력 x를 클래스로 할당하는 판별함수를 찾는다. 확률값은 계산하지 않는다.
결합분포 p(x, t)를 구하는 추론문제를 먼저 푼 다음, 조건부확률분포 p(t|x)를 구한다. 그리고 주변화(marginalize)를 통해 Et[t|x]를 구한다.
조건부확률분포 p(t|x)를 구하는 추론문제를 푼 다음 주변화를 통해 Et[t|x]를 구한다.
y(x)를 직접적으로 구한다.