기초 통계량
통계량(Statistic)은 표본으로 산출한 값으로
통계량을 통해 표본 데이터가 갖는 특성을 이해할 수 있다.
🔰 중심경향치
-
표본데이터를 이해하기 위한 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 한다.
-
대표적인 중심경향치는 평균(mean)이며, 중앙값(median), 최빈값(mode), 절사 평균 등이 있다.
❕ 평균
Xˉ=nx1+x2+⋯+xn=n1i=1∑nxi
❕ 중앙값
-
표본으로 부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값을 의미한다.
-
관측치가 짝수일 경우 가운데 두개의 값을 산술 평균한 값이 된다.
-
이상치가 포함된 데이터일 때 평균대신 사용될 수 있다.
❕ 최빈값
🔰 산포도
-
표본 데이터가 어떻게 흩어져 있는지를 확인하기 위한 지표이다.
-
데이터의 산포도를 나타내는 측도로는 범위(Range), 사분위수(Quartile), 분산(Variance), 표준편차(Standard Deviation), 변동계수(Coefficient of Variation) 등이 있다.
❕ 범위
❕ 사분위수
-
전체 데이터를 오름차순으로 정렬하여 4등분 했을 때,
첫 번째를 제1사분위수(Q1)
두 번째를 제2사분위수(Q2)
세 번쨰를 제3사분위수(Q3)라고 한다.
-
사분위수간 범위(InterQuartile Range, IQR)
IQR=Q3−Q1
❕ 백분위수
❕ 분산
-
데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도이다.
-
데이터 각각의 값들의 편차 제곱합으로 계산한다.
-
표본분산 : s2=n−11i=1∑n(xi−xˉ)2
-
크기가 N인 모집단의 평균이 μ일 때,
모분산 : σ2=N1i=1∑N(xi−μ)2
❕ 표준편차
❕ 변동계수, CV
-
평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용한다.
-
표본의 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교할 때 사용된다.
-
변동계수는 표준편차를 평균으로 나누어 산출한다.
cv=xˉs
확률
어떤 시행에서 사건 A가 일어날 가능성을 수로 나타낸 것으로,
모든 경우의 수에 대한 특정 사건이 발생하는 0과 1사이 비율이다.
-
수학적 확률
-
표본 공간(S)가 유한집합일 때 표본 공간의 모든 원소들이 일어날 확률이 같으면, 즉 표본공간이 S인 어떤 시행에서 각 결과가 일어날 가능성이 모두 같은 정도로 기대될 때,
표본공간 S에서 사건 A가 일어날 수학적 확률은
P(A)=표본공간 S의 원소의 수 사건 A가 일어날 경우의 수 = n(S) n(A)
-
ex.
- 주사위를 던져서 6이 나올 확률 ⇒ 61
- 트럼프 카드 52장 중 A가 나올 확률
- 로또 1등에 당첨될 확률
-
통계적 확률
-
어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우를 확률로 표현하면 N r이고, 이를 사건 A가 일어날 상대도수라고 한다.
N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값 N→∞lim N r을 사건 A의 통계적 확률 또는 경험적 확률이라고 한다.
-
시행 횟수가 충분히 클 때, 통계적 확률은 수학적 확률에 가까워진다.
-
ex.
- 타자가 타석에서 안타를 칠 확률
- 공정에서 제품이 정상일 확률(수율)
🔰 확률의 성질
❕ 확률의 기본성질
표본공간이 S인 어떤 시행에서
- 임의의 사건 A에 대하여 0≤P(A)≤1
- 반드시 일어나는 사건 S에 대하여 P(S)=1
- 절대로 일어나지 않는 사건 ∅에 대하여 P(∅)=0
절대로 일어나지 않는 사건은 공집합 ∅으로 나타낸다.
- ex.
주사위 한 개를 던지는 시행에서 6이하의 눈이 나오는 사건을 A, 7의 눈이 나오는 사건을 B라 하면 P(A)=1, P(B)=0
❕ 확률의 덧셈법칙
- 표본공간 S와 두 사건 A, B에 대하여
P(A∪B)=P(A) + P(B) − P(A∩B)
- 이때 두 사건 A, B가 서로 배반사건이면
A∩B=∅ ⇢ P(A∩B)=P(∅)=0 이므로
P(A∪B)=P(A) + P(B) 이다.
❕ 여사건의 확률
P(Ac)=1−P(A) ⇢ P(Ac)+P(A)=1
🔰 조건부확률
-
Conditional Probability
어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률
-
사건 A가 일어났을 때 사건 B의 조건부확률은
P(B∣A)=P(A) P(A∩B) (단, P(A)>0)
❕ 확률의 곱셈법칙
- 두 사건 A, B에 대하여 P(A)>0, P(B)>0일 때,
P(A∩B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)
🔰 베이즈 정리
- Bayes’ Theorem
표본공간 S에서 서로 배반인 사건 A1, A2, ..., Ak에 의하여 분할되어 있을 때,
임의의 사건 B에 대하여 다음이 성립한다.
P(Ai∣B)=P(B) P(Ai∩B) =P(B) P(B∣Ai)⋅P(Ai) = j=1∑kP(B∣Aj)⋅P(Aj) P(B∣Ai)⋅P(Ai)
- ex.
자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
-
임의의 한 고객을 선택했을때, 그 고객이 1년 이내에 사고를 낼 확률을 구하시오
-
어떤 고객이 1년내 사고를 낸 고객이라면, 그 고객이 A등급일 확률을 구하시오
풀이) A등급 고객을 A1, B등급 A2, C등급 A3, 라고 하고 1년이내 사고 낼 사건을 B라고 하면
-
P(B)=P(B∣A1)P(A1) + P(B∣A2)P(A2) + P(B∣A3)P(A3)
=0.3×0.1 + 0.5×0.2 + 0.2×0.3=0.19
-
P(Ai∣B)=P(B) P(B∣Ai)P(Ai) =0.190.3×0.1=0.157894737
확률변수
어느 시행에서 표본공간의 각 원소에 하나의 실수 값에 대응되는 함수이다.
-
표본공간에서 각 사건에 실수를 대응시키는 함수를 확률변수(Random Variable)라고 한다.
-
확률변수는 표본공간을 정의역으로 하고 실수 전체의 집합을 공역으로 하는 함수이다.
-
표본공간은 어느 시행에서 일어날 수 있는 모든 결과의 집합을 의미한다.
-
확률변수 X가 어떤 값 x를 가질 확률을 기호로 나타내면 다음과 같다.
P(X=x)
- 확률변수 X가 a 이상 b 이하의 값을 가질 확률은 P(a≤X≤b)와 같이 나타낸다.
- 확률변수는 보통 X, Y, Z 등과 같은 대문자로 표현하고,
확률변수가 가질 수 있는 특정값은 x, y, z 등과 같은 소문자로 나타낸다.
-
확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변한다.
-
ex.
- 반도체 1000개의 wafer중 불량품의 수 X
- 공장에서 생산하는 전구의 수명 T
- 주사위를 던질 때 나오는 눈의 수 V
🔰 이산확률변수
-
Discrete Random Variable
셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
-
확률변수 X가 가질 수 있는 값을 셀 수 있을 때, X를 이산확률변수라고 한다.
-
일반적으로 셀 수 있다는 것은 대상이 유한개이거나 자연수 전체의 집합과 일대일 대응이 된다는 뜻이다.
-
ex.
-
3개의 동전을 동시에 던질 때 앞면이 나오는 동전의 개수 X가 가질 수 있는 값
⇝ 0, 1, 2, 3
-
5번의 자유투를 시도하여 성공한 횟수 X={0, 1, 2, 3, 4, 5}
-
빨간 공 2개, 파란 공 3개가 들어 있는 주머니에서 임의로 2개의 공을 동시에 꺼낼 때 나오는 빨간 공의 개수 X={0, 1, 2}
❕ 기대값(평균)
-
이산확률변수 X의 확률질량함수 P(X=xi) = pi (i=1,2,⋯,n)일 때
기대값(평균): E(X)=x1p1+x2p2+⋯+xnpn=i=1∑nxipi
- ex. 주사위를 던졌을 때의 기대값은
1×61 + 2×61 + 3×61 + 4×61 + 5×61 + 6×61
=6 1+2+3+4+5+6 =3.5
-
기대값의 성질
a(a=0), b가 상수이고, X, Y를 임의의 확률변수라고 할 때 다음이 성립한다.
- E(a)=a ⇢ 상수의 기대값은 상수이다.
- E(aX)=aE(X)
- E(aX+b)=aE(X)+b
- E(aX±bY)=aE(X)±bE(Y)
- X, Y가 서로 독립일 때, E(XY)=E(X)E(Y)
❕ 분산
-
이산확률변수 X의 확률질량함수 P(X=xi) = pi (i=1,2,⋯,n)일 때
분산: V(X)=E((X−m)2)=i=1∑n(xi−m)2pi=E(X2)−{E(X)}2
Var(X)=N1∑(xi−μ)2
-
분산의 성질
a(a=0), b가 상수이고, X, Y를 임의의 확률변수라고 할 때 다음이 성립한다.
- V(a)=0
- V(aX)=a2 V(X)
- V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
- V(aX±bY)=a2 V(X)±b2 V(Y) + 2Cov(X,Y)
- X, Y가 서로 독립일 때, V(XY)=0
-
공분산
2개의 확률변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가진다.
Cov(X,Y)=E[{X−E(X)}{Y−E(Y)}]
=n−1 ∑in(Xi−Xˉ)(Yi−Yˉ)

🔰 연속확률변수
-
continuous random variable
연속형 또는 무한대와 같이 셀 수 없는 경우
-
길이(키), 시간, 무게 등과 같이 어떤 범위에 속하는 임의의 실수 값을 연속적으로 갖는 확률변수가 연속확률변수이다.