데이터 공간을 x 라 표기하고 는 데이터공간에서 데이터를 추출하는 분포임
는 확률변수가 x값을 가질 확률로 해석할 수 있음
밀도는 누적확률분포의 변화율을 모델링하며 확률로 해석하면 안 됨.
- 결합분포 는 를 모델링함.(원래분포 D와 모델링한 결합분포는 다를 수 있음(모델링 방법에 따라 결정됨. 달라도 근사할 수 있음, 이산 -> <- 연속)
- 는 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없음.
- 는 입력 X에 대한 주변확률분포로 Y에 대한 정보를 주진 않음.
- 입력 X에 대한 주변확률분포인 는 결합분포 에서 유도 가능함(모델링에 따라)
- 주변확률분포는 결합확률분포 를 각각의 Y에 대해서 모두 더해주거나 적분을 통해 유도할 수 있음
조건부확률분포 는 데이터 공간에서 입력 X와 출력 Y사이의 관계를 모델링 함(특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여줌)
- Y가 1인 경우의 조건부확률(특정 클래스) -> 데이터의 초상화, 데이터를 해석하는 데 필요한 도구 !!
(주의)연속확률분포의 경우 는 확률이 아니고 밀도임.
선형모델과 소프트맥스 함수의 결합(로지스틱)은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용됨.
분류와 회귀에서의 조건부확률
식과 같이, 데이터를 대입한 후, 산술평균을 계산하면 기대값에 근사한다.