데이터 사이언스 스쿨 집합과 원소 구별 가능한 객체의 모임을 집합(set) 이라고 하고 집합에 포함된 구별 가능한 객체를 그 집합의 원소(element) 라고 한다. 원소 $x$와 그 원소를 포함하는 집합 $A$의 관계는 다음처럼 표시한다. $$ x \in A \tag{6.1.1} $$ 만약 원소 $x$가 집합 $A$에 포함되지 않는다면 다음처럼...
표본공간과 확률표본 우선 확률표본(sample)과 표본공간(sample space)을 정의한다. 확률표본(probabilistic sample, random sample) 또는 표본(sample) 은 풀고자 하는 확률적 문제에서 발생(realize)할 수 있는 하나의 현상, 혹은 선택(sampled)될 수 있는 하나의 경우를 말한다. 표본공간(sample...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 6.3 확률의 성질 성질 1. 공집합의 확률 > 공집합인 사건의 확률은 0이다. $$ P(\emptyset) = 0 \tag{6.3.1} $$ 성질 2. 여집합의 확률 > 어떤 사건의 여집합인 사건의 확률은 (1 - 원래 사건의 확률)과 같다. $$ P(A^C) = 1 - P(A) \tag{...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 범인 찾기 문제 경찰은 전체 용의자 목록을 가지고 있다. 베이지안 확률론 관점에서 전체 용의자 목록은 바로 표본공간이다. 우리가 알고 싶은 것은 전체 용의자 목록(표본공간)에서 누가 범인(선택된 표본)인가 하는 점이다. 현재 표본공간은 용의자 20명으로 구성되어 있으며 이 중 남자가 12명, 여자가 8명...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식이다. 베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 ...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 확률적 데이터 실험, 측정, 조사 등을 통해 어떤 데이터값을 반복적으로 얻는 경우를 생각하자. 생년월일처럼 언제 누가 얻더라도 항상 같은 값이 나오는 데이터를 결정론적 데이터(deterministic data) 라고 하고 혈압처럼 정확히 예측할 수 없는 값이 나오는 데이터를 확률적 데이터(random da...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 표본평균, 표본분산 등은 현실세계의 데이터 분포의 모양을 서술하는 특성값이다. 이제부터는 이론적인 확률분포함수의 모양을 서술하는 특성값을 살펴본다. 우선 기댓값부터 공부한다. 기댓값은 표본평균처럼 분포의 위치를 알려주는 특성값이지만 확률분포의 가중합이나 가중적분으로 정의한다. 확률변수의 기댓값 확률변수의...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 확률분포의 분산 분산은 확률분포함수에서 확률이 모여있는지 퍼져있는지를 나타내는 값이다. 기댓값이 확률변수에서 어떤 값이 나올지를 예측한 것이라면 분산은 그 예측의 정확도 혹은 신뢰성을 표현한 것이라고 볼 수 있다. 확률밀도함수 $p(x)$의 수식을 알고 있다면 이론적인 분산을 구할 수 있다. 분산을 구하...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 결합확률질량함수 주사위처럼 1부터 6까지의 값을 가지는 카테고리 분포 확률변수 $X$와 $Y$를 생각하자. 확률변수 각각의 확률적 특성은 확률질량함수 $pX(x), pY(y)$로 나타낼 수 있다. 확률변수가 여러 개 있을 때는 확률질량함수의 아랫 첨자로 확률변수 이름을 지정하여 어떤 확률변수의 확률질량함수...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 표본공분산 표본공분산(sample covariance)은 다음처럼 정의한다. 여기에서 $xi$와 $yi$는 각각 $i$번째의 $x$ 자료와 $y$자료의 값을 가리키고, $\bar{x}$와 $\bar{y}$는 $x$ 자료와 $y$자료의 표본평균을 가리킨다. 일반적인 분산의 정의 '편차 제곱의 평균'과 유사한...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 확률변수 $Y$의 기댓값을 구할 때 주변 확률밀도함수 $pY(y)$를 사용하여 가중치를 계산하지 않고 조건부 확률밀도함수 $p{Y\vert X}(y|x)$를 이용하여 가중치를 계산하면 조건부기댓값(conditional expectation) 혹은 조건부평균(conditional mean) 이 된다. $$...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 확률분포 클래스 사이파이(scipy)는 수치해석기능을 제공하는 파이썬 패키지다. 사이파이에서 확률분포 기능을 사용하려면 우선 해당 확률분포에 대한 확률분포 클래스 객체를 생성한 후에 이 객체의 메서드를 호출해야 한다. 확률분포 객체를 생성하는 명령에는 다음과 같은 것들이 있다. | 종류 | 명령 | 확...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 베르누이 시행 결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행(Bernoulli trial)이라고 한다. 예를 들어 동전을 한 번 던져 앞면(H:Head)이 나오거나 뒷면(T:Tail)이 나오게 하는 것도 베르누이 시행이다. 베르누이 확률변수 베르누이 시행의 결과를 실수 0 또는 1로 ...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 카테고리 확률변수 카테고리 확률변수(Categorical random variable)는 1부터 $K$까지 $K$개 정숫값 중 하나가 나온다. 이 정숫값을 범주값, 카테고리(category) 혹은 클래스(class)라고 한다. 예를 들어, 주사위를 던져 나오는 눈금 수는 $K=6$인 카테고리 분포다. 주...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 정규분포(normal distribution) 혹은 가우스 정규분포(Gaussian normal distribution)라는 분포는 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용한다. 정규분포는 평균 $\mu$와 분산 $\sigma^2$이라는 두 모수만으로 정의되며 확률밀도함수(pdf...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 스튜던트 t분포 현실의 데이터를 살펴보면 정규분포와 상당히 유사하지만 양 끝단의 비중이 정규분포에 비해 더 큰 데이터들을 발견할 수 있다. 정규분포라 가정했을 때보다 극단적 현상이 더 자주 발생한다는 뜻이다. 분포의 모양을 볼 때 양 끝(꼬리) 부분이 정규분포보다 두껍다고 해서 이를 팻 테일(fat tai...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. $D$차원 다변수정규분포(MVN: multivariate Gaussian normal distribution) 의 확률밀도함수는 평균벡터 $\mu$ 와 공분산행렬 $\Sigma$ 라는 두 개의 모수를 가지며 다음과 같은 수식으로 정의한다. $$ \mathcal{N}(x ; \mu, \Sigma) = \...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 베타분포 베타분포(Beta distribution) 는 $a$와 $b$라는 두 모수를 가지며 표본 공간은 0과 1사이의 실수다. 즉 0과 1 사이의 표본값만 가질 수 있다. $$ \text{Beta}(x;a,b), \;\; 0 \leq x \leq 1 \tag{8.7.1} $$ 베타분포의 확률밀도...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 9.1 확률분포의 추정 >분석하고자 하는 데이터가 어떤 확률변수로부터 실현된 표본이다. 데이터 분석의 첫 번째 가정이다. 이 말은 우리가 정말 관심이 있는 것이 지금 손에 가지고 있는 데이터 즉, 하나의 실현체에 불과한 표본이 아니라 그 뒤에서 이 데이터를 만들어내는 확률변수의 분포라는 뜻이다. 확률론적...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 이론적으로 가장 가능성이 높은 모수를 찾는 방법인 최대가능도 추정법에 대해 알아본다. 최대가능도 추정법은 모든 추정방법 중 가장 널리 사용되는 방법이다. 먼저 가능도함수에 대해 알아보고 베르누이분포, 카테고리분포, 정규분포, 다변수정규분포 등 여러 기본분포의 모수를 최대가능도 추정법으로 추정하는 방법을 공...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 베이즈 추정법(Bayesian estimation)은 모숫값이 가질 수 있는 모든 가능성의 분포를 계산하는 작업이다. 어떤 확률분포함수의 모수를 $\mu$라고 하자. 최대가능도 추정법에서는 모수를 미지의 상수로 보았지만 베이즈 추정법에서는 모수를 확률변수로 본다. 확률변수는 확률밀도함수를 가진다. 베이즈 ...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 검정(testing) 은 데이터 뒤에 숨어있는 확률변수의 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업이다. 예를 들어 다음과 같은 문제는 검정 방법론을 사용하여 접근할 수 있다. 예제 1 > 어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 조작되지 않은 공정한 동전이라고 ...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 사이파이 패키지의 검정 명령 이항검정(Binomial Test) 카이제곱검정(Chi-squared Test) 카이제곱 독립검정(Chi-squared Contingency Test) 단일표본 z검정(One-sample z-Test) 단일표본 t검정(One-sample t-Test) 독립표본 t검정(Indep...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. $Y=0$ 또는 $Y=1$ 인 두 가지 값을 가지는 확률변수의 확률분포가 다음과 같이 세 종류가 있다고 하자. 확률분포 $Y_1$ : $P(Y=0)=0.5$, $P(Y=1)=0.5$ 확률분포 $Y_2$ : $P(Y=0)=0.8$, $P(Y=1)=0.2$ 확률분포 $Y_3$ : $P(Y=0)=1.0$, $P...
✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다. 결합엔트로피 결합엔트로피(joint entropy) 는 결합확률분포를 사용하여 정의한 엔트로피를 말한다. 이산확률변수 $X$, $Y$에 대해 결합엔트로피는 다음처럼 정의한다. $$ H[X, Y] = - \sum{i=1}^{KX} \sum{j=1}^{KY} \,p(xi, yj) \log2 p(xi, y...