[034] 기초통계 - 데이터의 이해와 확률 이론 / 기초①

이연희·2023년 10월 7일
0

Chapter
📗 1. Introduction
📗 2. 데이터의 이해
📝 (1) 데이터와 그래프
📝 (2) 데이터의 기초 통계량
📗 3. 확률 이론
📝 (1) 확률(probability)
📝 (2) 확률 변수(random variable)

📗 1. Introduction

통계학(Statistics)

  • 기술통계학(descriptive statistics): 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
  • 추론통계학(inferential statistics): 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추론하는 방법론

.
.

📗 2. 데이터의 이해

📝 (1) 데이터와 그래프

1) 변수(variable)

: 조사 목적에 따라 관측된 자료값. 해당 변수에 대하여 관측된 값들이 자료(data)가 됨

  • 질적 자료
    : 관측된 데이터가 몇 개의 범주로 구분하여 표현할 수 있는 데이터 (ex. 성별, 주소지, 업종)

  • 양적 자료
    : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 가짐. 숫자를 표현할 때에는 이산형 데이터와 연속형 데이터로 구분

2) EDA (탐색적 데이터 분석)

데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 방법

목적
① 데이터 분석 프로젝트 초기에 가설 수립
② 적절한 모델 및 기법의 선정
③ 변수 간 트렌드, 패턴, 관계를 찾고 통계적 추론을 기반으로 가정을 평가
④ 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

3) 데이터 시각화(data visualization)

데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

  • 시간 시각화: 막대그래프, 점그래프
  • 분포 시각화: 파이차트, 도넛 아트, 트리맵, 누적 연속 그래프
  • 관계 시각화: 스캐퍼플롯, 버블차트, 히스토그램
  • 비교 시각화: 히트맵, 스타 차트, 평행 좌표계, 다차원 척도법
  • 공간 시각화: 지도 맵핑

.
.

📝 (2) 데이터의 기초 통계량

통계량(statistics)은 표본으로 산출한 값으로, 기술통계량이라고도 표현함. 통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있다.

1) 중심경향치

: 표본을 이해하기 위해서는 표본의 중심에 대해 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라고 하며, 중심경향치라고 함. 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음.

  • 평균(mean)
    평균은 모집단으로부터 관측된 n개의 x가 주어졌을 때 다음과 같이 정의된다. xˉ\bar{x} = (x1+x2+x3+x4+...+xn)n\frac{(x_1{} + x_2{} + x_3{} + x_4{} + ... + x_n{})}{n}
    평균은 표본으로 추출된 표본 평균(xˉ\bar{x}, sample mean)이라고 하며, 모집단의 평균을 모평균이라고 하며 μ\mu라고 표기함

  • 중앙값(median)
    평균과 같이 자주 사용하며, 표본으로부터 관측치를 크기순으로 나열하여, 가운데 위치하는 값을 말한다. 중앙값은 이상치가 포함된 데이터에 대해서 자주 사용된다.
    만약, 관측치가 홀수일 경우는 중앙에 위치한 값이며, 짝수일 경우는 가운데 두 개의 값을 산술 평균한 값이다.

  • 최빈값(mode)
    관측치 중에서 가장 많이 관측되는 값을 말한다. 명목형 데이터의 경우 잘 사용된다.

2) 산포도

데이터가 어떻게 흩어져 있는지 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 한다. 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있다.

  • 범위(range)
    데이터의 최댓값(max)과 최솟값(min)의 차이를 말한다.

  • 사분위수(quartile)
    전체 데이터를 오름차순으로 정렬하여 4등분 했을 때, 첫번째는 제1 사분위수(Q1), 두 번째를 제2 사분위수(Q2), 세 번째를 제3 사분위수(Q3)라고 한다.
    사분위수의 범위(interquartile range, IQR) = Q3 - Q1

  • 백분위수(percentile)
    전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값
    제p백분위수는 p%에 위치한 자료 값을 말한다.

  • 분산(variance)
    데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
    데이터의 각각의 값들의 편차 제곱합으로 계산한다.
    표본분산(s2s^2{}) = (xixˉ)2(n1)\frac{\sum(x_i{}-\bar{x})^2}{(n-1)}
    크기가 N인 모집단의 평균을 μ\mu라고 할 때, 모평균과 모분산은 다음과 같다.
    모분산(σ2\sigma^2{}) = (xiμ)2n\frac{\sum(x_i{}-\mu)^2}{n}

  • 표준편차(standard deviation)
    분산의 제곱근
    표본 표준편차(s) =s2\sqrt{s^2{}}
    모표준편차(σ\sigma) = σ2\sqrt{\sigma^2{}}

  • 변동계수(coefficient of variation, CV)
    평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용한다.
    표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교한다.
    cv = sxˉ\frac{s}{\bar{x}}

"정규 분포 모양 - 평균과 분산에 따라서 모양이 달라진다."
(평균이 클 수록 중심이 오른쪽으로 쏠리고, 분산이 클 수록 분포가 넓어진다.)

3) 왜도(skew)

자료의 분포가 얼마나 비대칭적인지 표현하는 지표. 왜도가 0이면 좌우 대칭이고, 0에서 클 수록 우측꼬리가 길고, 작을 수록 좌측 꼬리가 길다.

4) 첨도(kutosis)

확률분포의 꼬리가 두꺼운 정도를 나타낸디/
첨도값(k)이 3에 가까우면 산포도가 정규분포에 가깝자.
3보다 작을 경우에는 산포는 정규분포보다 꼬리가 얇은 분포이다.
첨도가 3보다 큰 양수이면 정규분포보다 꼬리가 두꺼운 분포이다.

.
.
.
.

📗 3. 확률 이론

📝 (1) 확률(probability)

모든 경우의 수에 대한 특정 사건이 발생하는 비율.

1) 표본 공간(sample space)

어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합이다.
예를 들어 동전을 던진다고 했을 때 나올 수 있는 결과들은 앞면과 뒷면으로 2개이며, 주사위를 던진다고 하면 1부터 6까지, 6개의 경우의 수가 나올 수 있다.

  • 사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간을(S)가 유한집할일 때, 표본 공간의 모든 원소들이 일어날 확률이 같다면
    P(A) = (사건 A가 일어날 원소의 수) / (표본공간 S의 원소의 수)
    예를 들어, 주사위를 던져 2가 나올 확률을 구해보면 주사위 숫자 2가 나올 원소

  • 통계적 확률 정의
    어떤 시행을 n번 반복했을 때, 사건 a에 해당하는 결과가 r번 일어난 경우 r/n이고, 사건 a가 일어날 상대도수라고 한다.
    반면 n이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 a의 통계적 확률 또는 경험적 확률이라고 한다.

2) 확률의 성질

  • 합사건(union): 사건 A 또는 사건B가 일어날 확률 (A∪B)

  • 곱사건(intersection): 사건 a와 b가 동시에 일어날 확률 (A∩B)

  • 배반사건(mutually exclusive event): 사건 A와 B가 동시에 일어날 수 없을 경우 (A∩B = ∮)

  • 여사건(complement): 사건A가 일어나지 않을 확률 P(AcA^{c})

  • 확률의 덧셈법칙: P(A ∪ B) = P(A) + P(B) - P(A∩B)

  • A와 B가 배반 사건이면, P(A∩B) = P(∮) = 0

  • A의 여사건이 Ac이면, P(A) + P(AcA^{c}) = 1

3) 조합과 순열

  • ! (factorial): n개를 일렬로 늘여 놓은 경우의 수 (n!)
    n! = n(n-1)(n-2)...(2)(1)
  • 순열(permutation): 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수, nPr=n!(nr)!_{n}P_{r} = \frac{n!}{(n-r)!}
  • 조합(combination): 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수, nCr=nPrr!=n!r!(nr)!_{n}C_{r} =\frac{_{n}P_{r}}{r!} =\frac{n!}{r!(n-r)!}

4) 조건부 확률(conditional probability)

  • 어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률
    P(B|A) = P(AB)P(A)\frac{P(A∩B)}{P(A)}
    P(A|B) = P(AB)P(B)\frac{P(A∩B)}{P(B)}

  • 확률의 곱셈법칙
    P(A∩B) = P(A)·P(B|A) = P(B)·P(A|B)
    사건 A와 B가 독립일 경우, P(A∩B)= P(A)·P(B)

.
.

📝 (2) 확률 변수(random variable)

표본공간에서 각 사건에 실수를 대응시키는 함수
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가짐
확률 변수는 대문자로 표현하며(X,Y), 확률 변수의 특정값은 소문자로 표현한다(x,y).

  • 이산 확률 변수: 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우

  • 연속 확률 변수: 연속형 또는 무한대와 같이 셀 수 없는 경우

  • 확률 변수의 평균: 기댓값이라고도 함.
    E(X)=i=1nxiP(xi)=x1P(x1)+x2P(x2)+...+xnP(xn)E(X) = \sum_{i=1}^{n}x_{i}P(x_{i}) = x_{1}P(x_{1}) + x_{2}P(x_{2}) + ... + x_{n}P(x_{n})

  • 확률 변수의 분산
    var(X)=1N(xiμ)2var(X) = \frac{1}{N}\sum (x_{i}-\mu)^2

  • 기댓값의 성질: a,b가 상수이고, X,Y를 임의이 확률 변수라고 하자.
    E(a)=aE(a)=a
    E(aX)=aE(X)E(aX)=aE(X)
    E(aX+b)=aE(X)+bE(aX+b)=aE(X)+b
    E(aX+bY)=aE(X)+bE(Y)E(aX+bY) = aE(X)+bE(Y)
    E(aXbY)=aE(X)bE(Y)E(aX-bY) = aE(X)-bE(Y)
    X,Y가 독립일 때, E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

  • 분산의 성질
    var(a)=0var(a) = 0
    var(aX)=a2var(X)var(aX) = a^2var(X)
    var(X+Y)=var(X)+var(Y)+2cov(X,Y)var(X+Y) = var(X) + var(Y) +2cov(X,Y)
    var(aX+bY)=a2var(X)+b2var(Y)+2cov(X,Y)var(aX+bY) = a^2var(X) + b^2var(Y) + 2cov(X,Y)
    var(aXbY)=a2var(X)b2var(Y)+2cov(X,Y)var(aX-bY) = a^2var(X) - b^2var(Y) + 2cov(X,Y)
    X,Y가 독립일 때, var(XY)=0var(XY)=0
    var(X)=E(X2)+[E(X)]2var(X) = E(X^2) + [E(X)]^2

  • 공분산: 2개의 확률변수의 선형 관계를 나타내는 값, 두 개의 확률변수가 양의 상관관계를 가지면 양의 공분산을 가진다.
    cov(X,Y)=E[(XE(X))(YE(Y))]cov(X,Y) = E[(X-E(X))(Y-E(Y))] = in(XiXˉ)(YiYˉ)(n1)\frac{\sum_{i}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{(n-1)}

.
.
.
.

profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글