기초 통계 -1

Seung Joo·2021년 5월 14일
0

기술통계란(Descriptive Statistics)?


수집한 데이터를 요약 묘사 설명하는 통계 기법

✅대표적인 두가지 기법

  1. 우리가 수집한 데이터를 대표하는 값이 무엇인지, 또는 어떤 값에 집중 되어 있는지를 다루는 기법 = 집중화 경향(Central Tendency)에 대한 기법
    평균(mean), 중앙값(median), 최빈값(mode)

  2. 수집한 데이터가 전반적인 분포도를 설명하는 기법 = 분산도(Variation)
    표준편차(standard deviation), 사분위(quantile)

추리 통계(Inferenttial Statistics)란?


수집한 데이터를 바탕으로 추론 예측하는 통계 기법

표본에서 얻은 어떤 특성의 통계치를 기초로 추출된 표본에 따른 오차를 고려하면서

모집단의 모수치를 확률적으로 추정하는 통계적 방법

✅대표적인 두가지 방법

  • 추정(estimation) : 표본을 통해 모집단의 특성을 추측하는 것

  • 가설검정(testing hypothesis) : 가설이 통계적으로 유의한 지 테스트하는 것

모집단(Population)과 표본(Sample)


📌모집단(Population)

  • 어떤 정보를 얻고자 하는 전체 대상 또는 전체 집합

관측치 = NN
평균값 = μ\mu
분산 = σ2\sigma^2
표준편차 = σ\sigma

📌표본(Sample)

  • 여러 통계 자료를 포함하는 집단 속에서 그 일부를 끄집어내어 조사한 결과로 원래의 집단의 성질을 추측할 수 있는 통계 자료

관측치 = nn
평균값 = Xˉ\bar{X}
분산 = s2s^2
표준편차 = ss


분산(Variance)과 표준편차(Standard Deviation)


📌분산(Variance)

분산이란 데이터가 평균값을 중심으로 퍼져 있는 평균 거리

관측값에서 평균값을 뺀 것의 제곱 ÷{\div} 전체 갯수(nn)

모분산의 식

σ2=i=1N(xiμ)2N\sigma^2 = {\sum\limits_{i=1}^{N}(x_i - \mu)^2 \over N}

표본분산의 식

s2=i=1n(xixˉ)2n1s^2 = {\sum\limits_{i=1}^{n}(x_i - \bar{x})^2 \over n-1}

자유도 (Degree of freedom)

주어진 조건 하에서 통계적 제한을 받지 않고 자유롭게 변화할 수 있는 원소의 수이며
df라고 표기한다.

표본수가 nn인 표본에서 표본평균 Xˉ\bar{X}가 정해져 있다면 표본값 중 '자유롭게 변할 수 있는' 것은 개n1n-1의 표본이다.

표본 분산의 식에서 자유도(n1n-1)로 나누어주는 이유
[참고]https://bkshin.tistory.com/entry/%E3%85%87
[참고 유튜브]
https://youtu.be/faVIwae-wkw
https://www.youtube.com/watch?v=frz-BE3a6H0&t=148s

📌표준 편차(standard Deviation)

자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근
표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다

표준편차는 분산에 제곱근 한 것이다.
분산을 구할 때 음수를 없애기 위해 제곱을 해주었기 때문에
원래 단위로 되돌리기 위함이다.

모집단의 표준편차 식

σ=σ2=i=1N(xiμ)2N{\sigma} = \sqrt{\sigma^2} = \sqrt{{\sum\limits_{i=1}^{N}}(x_i-{\mu})^{2} \over N}

표본의 표준편차 식

s=s2=i=1n(xixˉ)2n1{s} = \sqrt{s^2} = \sqrt{{\sum\limits_{i=1}^{n}}(x_i-{\bar{x}})^{2} \over n-1}

정규 분포 (Normal Distribution)


가우시안 분포(Gaussian Distribution)이라고도 함
종 모양(bell shape)

[이미지출처]https://zetawiki.com/wiki/정규분포곡선

평균을 중심으로 좌우가 대칭인 분포
정규분포의 양 끝은 영원이 0에 닿지 않음
정규분포는 평균과 표준편차에 대해 모양이 결정됨
이때에 분포를 N(μ,σ2)N(\mu,\sigma^2)로 표기함
정규분포 곡선 아래의 면적은 확률을 의미하고 곡선 아래의 면적의 합은 1

표준 정규 분포 (Standard Normal Distribution)

평균이 0이고, 표준편차가 1인 정규분포 = N(0,1)N(0,1)

무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해

profile
조금씩 천천히

0개의 댓글