통계 요약

김희상·2022년 11월 28일
0

ZB_DataSchool_9

목록 보기
5/17
post-thumbnail

Ⅰ. 소개

  • 통계학(statistics): 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

  • 기술통계학(descriptive statistics): 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약하난 방법론

  • 추론통계학(inferential statistics): 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특석을 추측하는 방법론

  • 컴퓨팅 파워가 올라감에 따라 딥러닝/머신러닝 분야가 급속히 발전

  • 데이터를 분석하는 방식도 시대의 흐름에 따라 변경/발전

Ⅱ. 데이터의 이해

1. 데이터와 그래프

  • 변수(Variable): 조사 목적에 따라 관측된 자료값, 해당 변수에 대해 관측된 값은 자료(Data)가 됨

  • 데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법을 EDA(Exploratory Data Analysis)라고 함
  • 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임
    목적:
  1. 데이터 분석 프로젝트 초기에 가설 수립 위해 사용
  2. 데이터 분석 프로젝트 초기에, 적절한 모델 및 기법의 선정
  3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론 기반으로 가정을 평가
  4. 분석 데이터에 적절한지 평가, 추가수집, 이상치 발견 등에 활용

2. 데이터의 기초 통계량

기초 통계량(기술통계량)

  • 통계량은 표본을 산출한 값, 통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음

중심 경향치

  • 표본의 중심을 설명하는 값(평균, 중앙값, 최빈값, 절사 평균 등)

  • 평균은 모집단으로부터 관측된 n개의 x가 주어졌을때 아래와 같이 정의됨

  • 평균은 표본으로 추출된 표본평균(sample mean)이라고 하며, 모집단의 평균은 모평균, μ라고 표기한다.

중앙값(median)

  • 표본으로부터 관측치를 크기순으로 나열했을때, 가운데 위치하는 값
  • 이상치가 포함된 데이터에 대해 사용

최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값
  • 옷 사이즈와 같은 명목형 데이터의 경우 사용

산포도

  • 데이터가 어떻게 흩어져있는지 확인하기 위해 중심경향치와 함께 산포에 대한 측도를 같이 고려
  • 데이터의 산포도를 나타내는 측도록 범위, 사분위수, 분산, 표준편차, 변동계수 등이 있음

범위(range)

  • 데이터의 최대값과 최소값의 차이

사분위수(quartile)

  • 전체 데이터를 오름차순으로 정렬하여 4등분 하였을 때, 순서대로 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)이라고 함
  • 사분위수 범위(interquartile range): IQR = 제3사분위수(Q3) - 제1사분위수(Q1)

백분위수(percentile)

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값
  • 제p백분위수는 p%에 위치한 자료값
  • 1) np가 정수이면, np번째와 (np+1)번째 자료의 평균
  • 2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때, m번째 자료

분산(variance)

  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
  • 데이터의 각각의 값들의 편차 제곱합으로 계산

표준편차(standard deviation)

  • 분산의 제곱근으로 정의
  • 크기가 N인 모집단의 평균을 μ라고 할 때, 모평균과 모분산은 다음과 같다.

변동계수(Coefficient of Variation: CV)

  • 평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용

  • 변동계수는 표준편차를 평균으로 나누어서 산출하며 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함

  • 왜도(skew): 자료의 분포가 얼마나 비대칭적인지 표현하는 지표

  • 첨도(kurtosis): 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도

Ⅲ. 확률 이론

확률(probability)

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율
  • 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비

표본 공간(Sample Space)

  • 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
  • 동전 던지기 S={앞면, 뒷면}, 주사위던지기 S={1,2,3,4,5,6}

통계적 확률

  • 어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건 A가 일어날 상대도수라고 함
  • N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 A의 통계적 확률 또는 경험적 확률이라고 함

확률의 성질

  • 합사건(union)
  • 곱사건(intersection)
  • 배반사건(mutually exclusive event)
  • 여사건(complement)

조합과 순열

  • 팩토리얼(Factorial, !): n개를 일렬로 늘여놓은 경우의 수

  • 순열(Permutation): 순서를 고려하여 n개중 r개를 뽑아서 배열하는 경우의 수

  • 조합(Combination): 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수

조건부확률

  • 조건부확률(conditional probability): 어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률

확률의 곱셈법칙

베이즈 정리(Bayes' Theorem)

  • 표본공간 S에서 서로 배반인 사건 B1, B2, ... Bk에 의하여 분할되어 있을때, 임의의 사건 A에 대하여 다음이 성립함

  • a) A1, A2, A3을 각각 뽑았을 때 사고낼 확률의 합
  • b) 사건B가 주어졌을 때 A1일 확률

확률 변수(random variable):

  • 표본공간에서 각 사건에 실수를 대응시키는 함수
  • 확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험 결과에 의하여 변함

  • a) 상수의 기대값 = 상수
  • b) 상수X의 기대값 = 상수(X의 기대값)
  • e) X, Y가 독립일 때 XY의 기대값 = X 기대값 * Y 기대값

  • a) 상수의 분산은 0
  • b) aX의 분산 = a^2(X의 분산)
  • e) 독립일 때 곱의 분산은 0
  • f) 확률변수 X의 기대값 = X^2의 기대값 - X기대값^2

Ⅳ. 확률 분포

1. 이산형 확률분포

  • 확률분포(probability distribution): 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수
  • 이산형 균등분포(discrete uniform distribution): 확률변수가 유한개이고, 모든 확률변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등분포라고 함 (ex, 주사위)

  • 포아송 분포(Poisson distribution): 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포

  • ex) 야구장에서 파울볼을 잡은 횟수, 버스정류장에서 특정 버스가 5분 이내 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등

  • 포아송 분포 조건

    1. 어떤 단위구간(ex, 1일)동안 이를 더 짧은 작은 단위의 구간(ex, 1시간)으로 나눌 수 있고 이러한 더 짧은 구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
    2. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
    3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
    4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
    5. 포아송 분포 확률 변수의 기댓값과 분산은 모두 λ 임

  • 이항 분포의 포아송 근사

    • 확률변수 X가 X ~ B(n,p)이고, n이 충분히 크고, p가 아주 작을때, X의 분포는 평균이 λ=np인 포아송 분포로 근사 시킬 수 있음.
    • 보통 n이 클 때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ Poission(np)
    • ex) 이항 분포와 포아송 비교
      아래의 표는 엑셀로 가능하며 분포를 표현하는 함수식으로 작성해 보시오.
  • 기하분포(geometric distribution): 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이 때 각 시도는 베르누이 시행을 따름

  • 음이항분포(negative binomial distribution): 어떤 실험에서 성공 확률이 p일 때, r번의 실패가 나올때까지 발생한 성공 횟수 X의 확률 분포

2. 연속형 확률분포

  • 확률밀도함수(probability density function): 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함

  • 누적분포함수(cumulative density function): 확률밀도함수를 적분하면 누적분포함수가 됨

  • 균일분포(uniform distribution): 확률 변수가 X가 a와 b 사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐

  • 균일 분포의 평균, 분산

  • [정규분포(normal distribution)]: 확률밀도함수는 확률변수 X가 평균이 μ이고, 분산이 σ²인 정규분포를 따를 때 아래와 같

  • 정규분포의 평균과 분산

  • 평균: E[x] = μ

  • 분산: Var[X] = σ², 표준편차: σ

  • X ~ N(μ, σ²)

  • 표준 정규 분포(standard normal distribution)

  • 정규분포의 성질

  • 이항분포의 정규 근사

  • ex1) NORM.DIST(1.96, 0, 1, 1)

  • ex2) NORM.DIST(-1.96, 0, 1, 1)

  • ex3) NORM.DIST(1.96, 0, 1, 1) - NORM.DIST(0.5, 0, 1, 1)

  • ex4) NORM.DIST(110, 100, 10, 1) - NORM.DIST(100, 100, 1, 1)

  • ex5) NORM.INV(0.05, 30, 5)

  • ex6) NORM.INV(0.9, 30, 5)

  • ex) 버스 정류장에 A버스가 평균 시간당 6대가 정차한다고 가정하면
    1) 10분 이상 대기할 확률은?
    2) 10분에서 20분 대기할 확률은?

  • 지수분포의 무기억성 (Memoryless Property)

  • 지수분포와 포아송 분포의 관계

  • 확률분포의 관계도

Ⅴ. 모집단과 표본 분포

1. 모집단과 표본의 정의

  • 모집단(Population), 표본(Sample)

  • 표본추출(Sampling): 모집단으로부터 표본을 추출하는 것 / 표본으로부터 그 특성을 찾아내고 모집단의 특성 추론 위함

  • 1) 복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음

  • 2) 비복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

  • 3) 랜덤추출: 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함 / 각 개체가 동일한 확률로 추출하는 방법

  • 샘플링 기법

  • 1) Over Sampling: 과도적합의 문제 발생 가능

  • 2) Under Sampling: 모형 성능이 떨어질 수 있음

    2. 표본 분포

  • 통계량(Statistic): 표본에 기초하여 걔산되는 수치 함수를 통계량이라고 함

  • 표본푼포(Sampling distribution): 통계량들이 이루는 분포를 표본분포라고 함

  • 표본 평균(Sample mean)

  • [중심극한 정리(central limit theorem)]:

  • 카이제곱 분포(Chi-square distribution):

  • 모집단의 분산을 비교할 때 사용!!

Ⅵ. 모집단에 대한 추론(통계적 추론)

1. 추정

  • 추정(estimation): 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 ㄱ성르 추정이라고 함
  • 추정량(estimator): 표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 함
  • 모수를 측정하는 방법에는 점추정(point estimation)구간 추정(interval estimation)이 있음
  • 점추정: 모수를 하나의 특정값으로 추정하는 방법
  • 구간추정: 모수가 포함될 수 있는 구간을 추정하는 방법

  • 표본의 크기 결정
  • 허용오차(permissible error): 추정한 값이 틀려도 허용할 수 있는 오차
  • 정규분포의 신뢰구간을 통해 허용 오차를 계산

2. 추정 실습

profile
3D 모델러의 개발 도전기

0개의 댓글