확률 이론의 기본 개념
정의: 가능한 모든 결과의 집합. 예를 들어, 동전 던지기의 표본공간은
Ω={H,T} 입니다.
특징: 실험이나 관측에서 나올 수 있는 모든 가능성을 포괄.
정의: 표본공간의 부분집합으로, 관측 가능한 특정 결과나 그들의 모임.
예: 주사위를 던졌을 때 짝수가 나오는 사건
A={2,4,6}.
정의: 각 사건에 대해 0과 1 사이의 값을 할당하는 함수
공리 (콜모고로프 공리):
공리(Axiom)는 수학에서 증명 없이 받아들이는 기본적인 원칙이나 규칙
<확률 측도의 공리>
전체 확률: P(Ω)=1 (전체 표본공간의 확률은 1)
비음성성 : P(A)≥0 (모든 사건의 확률은 음수가 아님)
가산 가법성: 상호 배타적인 사건들의 합집합에 대한 확률은 각 사건의 확률의 합과 같다.



조건부 독립성 : 사건 B의 발생 여부와 관계 없이 A의 발생확률이 동일하면 독립이라고 봄
X:Ω→R
특징





정의 :
누적 분포 함수 F(x)는 무작위 변수 X가 x 이하의 값을 가질 누적 확률
x값이 커질수록 지금까지 누적된 확률이 점점 더 쌓여감
y축 F(x)는 → P(X ≤ x)
"x까지 사건이 일어날 누적 확률"을 보여주는 그래프



<이산형 변수 VS 연속형 변수>

정의 : X가 취할 수 있는 값들을 가중 평균한 값으로 "중심"위치를 나타냄
중심 위치: 기대값은 데이터나 확률 분포의 중심 위치를 나타내며, 평균적인 경향성을 이해하는 데 중요한 역할을 합니다.
예측: 미래의 결과를 예측할 때, 기대값은 "평균적으로" 어떠한 결과가 나타날지를 제시합니다.
선형성: 기대값은 선형 연산자이므로, 두 확률 변수의 합에 대한 기대값은 각각의 기대값의 합과 같다는 성질(즉, E[aX+bY]=aE[X]+bE[Y])을 가집니다
정의 : 분산은 무작위 변수 X의 값들이 평균 E[X]에서 벗어난 정도를 제곱한 후, 그 제곱된 값들의 평균을 구하는 방식으로 정의
데이터의 산포도를 나타냄

제곱을 하는 이유 ?
편차가 음수와 양수로 상쇄되지 않도록 하기 위해
단위의 제곱: 분산은 원래 단위의 제곱(예: 길이가 미터라면 분산은 제곱미터)으로 나타납니다. 이 때문에 해석 시 주의해야 하며, 필요에 따라 표준편차(분산의 제곱근)를 사용하는 경우가 많습니다.
산포 정도 측정: 분산 값이 작으면 X의 값들이 기대값 주위에 몰려 있음을 의미하고, 값이 크면 퍼짐 정도가 크다는 것을 나타냅니다.
모멘트 관계:
X제곱은 2차 모멘트라고 하며, 기대값과 함께 분산을 통해 분포의 산포 특성을 파악할 수 있습니다.

무작위 변수 X에 대해 (N차 모멘트)를 구하는 것을 의미.
n은 양의 정수
n=1이면 1차 모멘트로 기댓값(평균)을 나타냅니다.
n=2이면 2차 모멘트가 나오고, 이 값은 분산을 계산하는 데 사용되거나 분산 자체와 연관됩니다.
고차 모멘트는 n≥3인 경우를 말하며, 이는 단순히 평균과 산포도를 넘어서 분포의 모양에 관한 정보를 제공합니다.

왜 ‘중앙화된’ 모멘트를 사용하는가?
중앙화된 모멘트:
E[(X−E[X]) N제곱] 같이 평균을 빼고 제곱 또는 세제곱, 네제곱 등의 연산을 하는 이유는 각 값들이 평균에서 얼마나 떨어져 있는지를 정확하게 파악하기 위함입니다.
중앙값으로부터의 차이를 사용하면 값들이 평균보다 크거나 작은지에 관계없이, 분포가 얼마나 퍼져 있는지 또는 어느 쪽으로 치우쳤는지를 균형 있게 반영할 수 있습니다.
- 왼쪽 사진(왜도), 오른쪽 사진(첨도)
출처 : https://www.excelr.com/skewness-and-kurtosis


특징:
사건들이 독립적으로 발생하며, 동일한 단위 구간에서 발생하는 사건의 수가 평균 λ 주변에서 분포합니다.
기댓값과 분산 모두 λ로 동일합니다.
예시: 1분 동안 웹사이트에 접속하는 사용자 수, 1시간 동안 특정 교차로에서 발생하는 교통사고 수 등.

ex) 특정 이벤트(전화 도착, 기계 의 고장 등)가 다음에 언제 발생할지 예측할 때 사용됨

출처 : https://woochan-autobiography.tistory.com/112

출처 : https://for-my-wealthy-life.tistory.com/56
특징
약한 법칙 : 독립이고 동일한 분포를 따르는 무작위 변수들의 평균이 진짜 평균에 수렴한다는 원리.강한 법칙: "거의 모든" 실현 경로(표본의 결과)에서, 무한히 많은 표본을 관찰하면 표본 평균은 정확히 모평균에 수렴한다는 강한 보장을 제공합니다. 이는 개별 실험의 결과에 의존하지 않고, 이론적으로 거의 모든 경우에서 성공적인 수렴을 보장
정의: 개별 분포의 형태와 상관 없이, 충분히 많은 독립 확률 변수들의 합(또는 평균)을 정규화(normalization)하면 근사적으로 정규 분포를 이룬다
실제 응용:
통계적 추정: 표본평균을 이용한 모평균 추정의 정규성을 가정하여 신뢰구간을 설정할 수 있음.
가설 검정: 표본의 통계량이 정규분포에 근사하기 때문에 z-검정, t-검정 등 정규성에 기반한 검정방법을 사용할 수 있음.
산업 및 품질 관리: 대량의 데이터를 취급하는 경우, 평균값의 분포가 정규에 가까워지므로, 품질 관리나 공정 통계에서 유용하게 활용
주요 조건: 독립성, 동일 분포(혹은 약한 종속 조건) 등이 필요하며, 표본 크기가 클수록 근사가 더 정확해짐.
=> 법칙의 수렴과 중심 극한 정리 모두 표본 크기의 증가가 추론에서 가지는 중요성을 강조
정의 :
예를 들어, 주사위를 던졌을 때 앞면이 특정 조건(예: 짝수)이 주어졌다면, 그 조건 하에서 얻을 수 있는 기대값을 산출하는 것이 조건부 기댓값
정의 :