데이터 사이언스 스쿨 집합과 원소 구별 가능한 객체의 모임을 집합(set) 이라고 하고 집합에 포함된 구별 가능한 객체를 그 집합의 원소(element) 라고 한다. 원소 $x$와 그 원소를 포함하는 집합 $A$의 관계는 다음처럼 표시한다. $$ x \in A \tag{6.1.1} $$ 만약 원소 $x$가 집합 $A$에 포함되지 않는다면 다음처럼...
표본공간과 확률표본 우선 확률표본(sample)과 표본공간(sample space)을 정의한다. 확률표본(probabilistic sample, random sample) 또는 표본(sample) 은 풀고자 하는 확률적 문제에서 발생(realize)할 수 있는 하나의 현상, 혹은 선택(sampled)될 수 있는 하나의 경우를 말한다. 표본공간(sample...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 6.3 확률의 성질 성질 1. 공집합의 확률 > 공집합인 사건의 확률은 0이다. $$ P(\emptyset) = 0 \tag{6.3.1} $$ 성질 2. 여집합의 확률 > 어떤 사건의 여집합인 사건의 확률은 (1 - 원래 사건의 확률)과 같다. $$ P(A^C) = 1 - P(A) \tag{...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 범인 찾기 문제 경찰은 전체 용의자 목록을 가지고 있다. 베이지안 확률론 관점에서 전체 용의자 목록은 바로 표본공간이다. 우리가 알고 싶은 것은 전체 용의자 목록(표본공간)에서 누가 범인(선택된 표본)인가 하는 점이다. 현재 표본공간은 용의자 20명으로 구성되어 있으며 이 중 남자가 12명, 여자가 8명...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식이다. 베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 ...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 확률적 데이터 실험, 측정, 조사 등을 통해 어떤 데이터값을 반복적으로 얻는 경우를 생각하자. 생년월일처럼 언제 누가 얻더라도 항상 같은 값이 나오는 데이터를 결정론적 데이터(deterministic data) 라고 하고 혈압처럼 정확히 예측할 수 없는 값이 나오는 데이터를 확률적 데이터(random da...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 표본평균, 표본분산 등은 현실세계의 데이터 분포의 모양을 서술하는 특성값이다. 이제부터는 이론적인 확률분포함수의 모양을 서술하는 특성값을 살펴본다. 우선 기댓값부터 공부한다. 기댓값은 표본평균처럼 분포의 위치를 알려주는 특성값이지만 확률분포의 가중합이나 가중적분으로 정의한다. 확률변수의 기댓값 확률변수의...