[zero-base/] DS Part 7. 통계기본 - 45일차 스터디 노트

손윤재·2024년 2월 5일

제로베이스 DS 22기

목록 보기
46/55
post-thumbnail

기초 통계량

통계량(Statistic)은 표본으로 산출한 값으로
통계량을 통해 표본 데이터가 갖는 특성을 이해할 수 있다.


🔰 중심경향치

  • 표본데이터를 이해하기 위한 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 한다.

  • 대표적인 중심경향치는 평균(mean)이며, 중앙값(median), 최빈값(mode), 절사 평균 등이 있다.


❕ 평균

  • 모평균, μ\mu : 모집단의 평균

  • 표본 평균(sample mean, Xˉ\bar X) : 모집단으로 부터 표본을 추출된 nn개의 평균

          Xˉ=x1+x2++xnn=1ni=1nxi~~~~~~~~~~\bar X = \cfrac{x_1+x_2+ \cdots +x_n}{n}=\cfrac{1}{n} \displaystyle\sum_{i=1}^n x_i


❕ 중앙값

  • 표본으로 부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값을 의미한다.

  • 관측치가 짝수일 경우 가운데 두개의 값을 산술 평균한 값이 된다.

  • 이상치가 포함된 데이터일 때 평균대신 사용될 수 있다.


❕ 최빈값

  • 관측치 중에서 가장 많이 관측되는 값이다.

  • 옷사이즈와 같이 명목형 데이터일 경우에 사용될 수 있다.


🔰 산포도

  • 표본 데이터가 어떻게 흩어져 있는지를 확인하기 위한 지표이다.

  • 데이터의 산포도를 나타내는 측도로는 범위(Range), 사분위수(Quartile), 분산(Variance), 표준편차(Standard Deviation), 변동계수(Coefficient of Variation) 등이 있다.


❕ 범위

  • 데이터의 최대값과 최소값의 차이를 의미한다.

❕ 사분위수

  • 전체 데이터를 오름차순으로 정렬하여 4등분 했을 때,
    첫 번째를 제1사분위수(Q1)
    두 번째를 제2사분위수(Q2)
    세 번쨰를 제3사분위수(Q3)라고 한다.

  • 사분위수간 범위(InterQuartile Range, IQR)

                  IQR=Q3Q1~~~~~~~~~~~~~~~~~~\boxed{IQR = Q3 - Q1}


❕ 백분위수

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 의미한다.

  • pp백분위수는  p~p %에 위치한 자료 값을 말한다.


❕ 분산

  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도이다.

  • 데이터 각각의 값들의 편차 제곱합으로 계산한다.

  • 표본분산 :  s2=1n1i=1n(xixˉ)2~s^2 = \cfrac{1}{n-1} \displaystyle \sum_{i=1}^n(x_i- \bar x)^2

  • 크기가 NN인 모집단의 평균이 μ\mu일 때,
    모분산 :  σ2=1Ni=1N(xiμ)2~ \sigma^2 = \cfrac{1}{N} \displaystyle \sum_{i=1}^N(x_i- \mu)^2


❕ 표준편차

  • 분산의 제곱근으로 정의한다.

  • 표본 표준편차 :  s=s2~ s=\sqrt{s^2}

  • 모표준편차 :  σ=σ2~ \sigma = \sqrt{\sigma^2}


❕ 변동계수, CV

  • 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용한다.

  • 표본의 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교할 때 사용된다.

  • 변동계수는 표준편차를 평균으로 나누어 산출한다.
              cv=sxˉ~~~~~~~~~~ cv = \cfrac{s}{\bar x}



확률

어떤 시행에서 사건 A가 일어날 가능성을 수로 나타낸 것으로,
모든 경우의 수에 대한 특정 사건이 발생하는 0과 1사이 비율이다.

  •  수학적 확률 

    • 표본 공간(S)(S)가 유한집합일 때 표본 공간의 모든 원소들이 일어날 확률이 같으면, 즉 표본공간이 SS인 어떤 시행에서 각 결과가 일어날 가능성이 모두 같은 정도로 기대될 때,
      표본공간 SS에서 사건 AA가 일어날 수학적 확률

       P(A)= 사건 A가 일어날 경우의 수 표본공간 S의 원소의 수=n(A) n(S) ~ P(A) = \cfrac{~사건~A가~일어날~경우의~수~}{표본공간~S의~원소의~수}= \cfrac{n(A)}{~n(S)~}

    • ex.

      • 주사위를 던져서 6이 나올 확률   16~\Rightarrow ~ \frac{1}{6}
      • 트럼프 카드 52장 중 A가 나올 확률
      • 로또 1등에 당첨될 확률
  •  통계적 확률 

    • 어떤 시행을 NN번 반복했을 때, 사건 A에 해당하는 결과가 rr번 일어난 경우를 확률로 표현하면  r N ~\cfrac{r}{~N~}이고, 이를 사건 A가 일어날 상대도수라고 한다.
      N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값 limNr N \lim\limits_{N\rarr\infty}\cfrac{r}{~N~}을 사건 A의 통계적 확률 또는 경험적 확률이라고 한다.

    • 시행 횟수가 충분히 클 때, 통계적 확률은 수학적 확률에 가까워진다.

    • ex.

      • 타자가 타석에서 안타를 칠 확률
      • 공정에서 제품이 정상일 확률(수율)

🔰 확률의 성질

❕ 확률의 기본성질

표본공간이 SS인 어떤 시행에서

  • 임의의 사건 A에 대하여    0P(A)1~~~ 0 \le P(A) \le 1
  • 반드시 일어나는 사건 SS에 대하여    P(S)=1~~~ P(S)=1
  • 절대로 일어나지 않는 사건 \varnothing에 대하여 P()=0P(\varnothing)=0
    절대로 일어나지 않는 사건은 공집합 \varnothing으로 나타낸다.
  • ex.
    주사위 한 개를 던지는 시행에서 6이하의 눈이 나오는 사건을 AA, 7의 눈이 나오는 사건을 BB라 하면    P(A)=1,  P(B)=0~~~P(A)=1,~~P(B)=0

❕ 확률의 덧셈법칙

  • 표본공간 SS와 두 사건 A, BA,~B에 대하여

        P(AB)=P(A) + P(B)  P(AB)~~~~~~~~ \boxed {P(A \cup B) = P(A)~+~P(B)~-~P(A \cap B)}

  • 이때 두 사건 A, BA,~B가 서로 배반사건이면
    AB=     P(AB)=P()=0 A \cap B=\varnothing ~~\dashrightarrow~~~ P(A \cap B)= P(\varnothing)=0~이므로

        P(AB)=P(A) + P(B) ~~~~~~~~ \boxed{P(A \cup B) = P(A)~+~P(B)}~이다.

❕ 여사건의 확률

  • 사건 AA의 여사건 AcA^c에 대하여

        P(Ac)=1P(A)    P(Ac)+P(A)=1~~~~~~~~ \boxed{P(A^c)=1-P(A)}~~\dashrightarrow~~ \boxed{P(A^c)+P(A)=1}


🔰 조건부확률

  • Conditional Probability
    어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률

  • 사건 AA가 일어났을 때 사건 BB의 조건부확률은

         P(BA)= P(AB) P(A)  (, P(A)>0)~~~~~ P(B|A)= \cfrac{~P(A \cap B)~}{P(A)} ~~ (단,~P(A)>0)

❕ 확률의 곱셈법칙

  • 두 사건 A, BA, ~B에 대하여 P(A)>0, P(B)>0P(A)>0,~P(B)>0일 때,

        P(AB)=P(A)P(BA)=P(B)P(AB)~~~~~~~~ \boxed{ P(A \cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)}


🔰 베이즈 정리

  • Bayes’ Theorem
    표본공간 SS에서 서로 배반인 사건 A1, A2, ..., AkA_1,~A_2,~...,~A_k에 의하여 분할되어 있을 때,
    임의의 사건 BB에 대하여 다음이 성립한다.

        P(AiB)= P(AiB) P(B)= P(BAi)P(Ai) P(B)=P(BAi)P(Ai) j=1kP(BAj)P(Aj) ~~~~~~~~\boxed{P(A_i|B)= \cfrac{~P(A_i \cap B)~}{P(B)} = \cfrac{~P(B|A_i) \cdot P(A_i)~}{P(B)} = \cfrac{P(B|A_i) \cdot P(A_i)}{~\displaystyle \sum _{j=1}^{k} P(B|A_j) \cdot P(A_j)~}}

  • ex.
    자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
    1. 임의의 한 고객을 선택했을때, 그 고객이 1년 이내에 사고를 낼 확률을 구하시오

    2. 어떤 고객이 1년내 사고를 낸 고객이라면, 그 고객이 A등급일 확률을 구하시오

      풀이) A등급 고객을 A1, A_1,~ B등급 A2, A_2,~ C등급 A3, A_3,~라고 하고 1년이내 사고 낼 사건을 BB라고 하면

      1. P(B)=P(BA1)P(A1) + P(BA2)P(A2) + P(BA3)P(A3)P(B)=P(B|A_1)P(A_1)~+~P(B|A_2)P(A_2)~+~P(B|A_3)P(A_3)

                   =0.3×0.1 + 0.5×0.2 + 0.2×0.3=0.19~~~~~~~~~~~ = 0.3 \times 0.1 ~+~ 0.5 \times 0.2 ~+~ 0.2 \times 0.3 = 0.19

      2. P(AiB)= P(BAi)P(Ai) P(B)=0.3×0.10.19=0.157894737P(A_i|B) = \cfrac{~P(B|A_i)P(A_i)~}{P(B)} = \cfrac{0.3 \times 0.1}{0.19} = 0.157894737



확률변수

어느 시행에서 표본공간의 각 원소에 하나의 실수 값에 대응되는 함수이다.

  • 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률변수(Random Variable)라고 한다.

  • 확률변수는 표본공간을 정의역으로 하고 실수 전체의 집합을 공역으로 하는 함수이다.

  • 표본공간은 어느 시행에서 일어날 수 있는 모든 결과의 집합을 의미한다.

  • 확률변수 XX가 어떤 값 xx를 가질 확률을 기호로 나타내면 다음과 같다.

          P(X=x)~~~~~~ P(X=x)

    • 확률변수 XX가 a 이상 b 이하의 값을 가질 확률은 P(aXb)P(a \le X \le b)와 같이 나타낸다.
    • 확률변수는 보통 X, Y, Z X,~Y,~Z~등과 같은 대문자로 표현하고,
      확률변수가 가질 수 있는 특정값은 x, y, z x,~y,~z~등과 같은 소문자로 나타낸다.
  • 확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변한다.

  • ex.

    • 반도체 1000개의 wafer중 불량품의 수 X
    • 공장에서 생산하는 전구의 수명 T
    • 주사위를 던질 때 나오는 눈의 수 V

🔰 이산확률변수

  • Discrete Random Variable
    셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우

  • 확률변수 XX가 가질 수 있는 값을 셀 수 있을 때, XX이산확률변수라고 한다.

  • 일반적으로 셀 수 있다는 것은 대상이 유한개이거나 자연수 전체의 집합과 일대일 대응이 된다는 뜻이다.

  • ex.

    • 3개의 동전을 동시에 던질 때 앞면이 나오는 동전의 개수 XX가 가질 수 있는 값
       0, 1, 2, 3\rightsquigarrow~0,~1,~2,~3

    • 5번의 자유투를 시도하여 성공한 횟수 X={0, 1, 2, 3, 4, 5}X = \{0,~1,~2,~3,~4,~5\}

    • 빨간 공 2개, 파란 공 3개가 들어 있는 주머니에서 임의로 2개의 공을 동시에 꺼낼 때 나오는 빨간 공의 개수 X={0, 1, 2}X=\{0,~1,~2\}

❕ 기대값(평균)

  • 이산확률변수 XX의 확률질량함수 P(X=xi) = pi  (i=1,2,,n)P(X=x_i)~=~p_i~~(i=1,2, \cdots, n)일 때

    기대값(평균):  E(X)=x1p1+x2p2++xnpn=i=1nxipi~ \boxed{E(X)=x_1p_1 + x_2p_2 + \cdots +x_np_n = \displaystyle \sum _{i=1}^{n} x_ip_i}

    • ex. 주사위를 던졌을 때의 기대값은
       1×16 + 2×16 + 3×16 + 4×16 + 5×16 + 6×16~ 1 \times \frac{1}{6} ~+~ 2 \times \frac{1}{6} ~+~ 3 \times \frac{1}{6} ~+~ 4 \times \frac{1}{6} ~+~ 5 \times \frac{1}{6} ~+~ 6 \times \frac{1}{6}
       = 1+2+3+4+5+6 6=3.5~ = \cfrac{~1+2+3+4+5+6~}{6} = 3.5
  •  기대값의 성질 

    a(a0), ba(a \not= 0),~b가 상수이고, X, YX,~Y를 임의의 확률변수라고 할 때 다음이 성립한다.

    • E(a)=a    E(a)=a~~\dashrightarrow~~상수의 기대값은 상수이다.
    • E(aX)=aE(X)E(aX) = aE(X)
    • E(aX+b)=aE(X)+bE(aX+b) = aE(X) + b
    • E(aX±bY)=aE(X)±bE(Y)E(aX \pm bY) = aE(X) \pm bE(Y)
    • X, YX,~Y가 서로 독립일 때, E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

❕ 분산

  • 이산확률변수 XX의 확률질량함수 P(X=xi) = pi  (i=1,2,,n)P(X=x_i)~=~p_i~~(i=1,2, \cdots, n)일 때

    분산:  V(X)=E((Xm)2)=i=1n(xim)2pi=E(X2){E(X)}2~ \boxed{V(X)= E((X-m)^2) = \displaystyle \sum _{i=1}^{n} (x_i-m)^2 p_i = E(X^2) - \{E(X)\}^2}

              Var(X)=1N(xiμ)2~~~~~~~~~~\boxed{Var(X)=\cfrac{1}{N}\sum(x_i - \mu)^2}

  •  분산의 성질 

    a(a0), ba(a \not= 0),~b가 상수이고, X, YX,~Y를 임의의 확률변수라고 할 때 다음이 성립한다.

    • V(a)=0V(a)=0
    • V(aX)=a2 V(X)V(aX) = a^2~V(X)
    • V(X+Y)=V(X)+V(Y)+2Cov(X,Y)V(X+Y) = V(X) + V(Y) + 2Cov(X,Y)
    • V(aX±bY)=a2 V(X)±b2 V(Y) + 2Cov(X,Y)V(aX \pm bY) = a^2~V(X) \pm b^2~V(Y)~+~2Cov(X,Y)
    • X, YX,~Y가 서로 독립일 때, V(XY)=0V(XY)=0
  • 공분산

    2개의 확률변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가진다.

         Cov(X,Y)=E[{XE(X)}{YE(Y)}]~~~~~ Cov(X,Y) = E[\{X-E(X)\}\{Y-E(Y)\}]

                              = in(XiXˉ)(YiYˉ) n1~~~~~~~~~~~~~~~~~~~~~~~~~~= \cfrac{~\sum _i^n (X_i-\bar{X})(Y_i-\bar{Y})~}{n-1}


🔰 연속확률변수

  • continuous random variable
    연속형 또는 무한대와 같이 셀 수 없는 경우

  • 길이(키), 시간, 무게 등과 같이 어떤 범위에 속하는 임의의 실수 값을 연속적으로 갖는 확률변수가 연속확률변수이다.

profile
ISTP(정신승리), To Be Data Scientist

0개의 댓글