기술통계와 추론통계

김요한·2024년 8월 1일

통계학 기초

통계학

목록 보기

2/30

기술통계와 추론통계

1)기술통계란

데이터를 요약하고 설명하는 통계 방법.

주로 평균, 중앙값, 분산, 표준편차 등을 사용
데이터를 특정 대표값으로 요약
데이터에 대한 대략적 특징 파악
데이터 중 예외(이상치)를 대푯값 등으로 파악 어려움으로 잘 인지해야함
ex) 처음 만나는 사람의 전체를 알 수 없지만 기본적인(나이, 성별, 직업, 학력, MBTI)등은 대력적으로 요약할 수 있으나 그것이 전부는 아니며 예외가 존재할 수 있음을 인지

평균 (Mean)

평균은 데이터의 계산 대푯값으로, 모든 데이터를 더한 후 데이터의 개수로 나누어 계산함.
이는 데이터의 일반적인 경향을 파악하는 데 유용함.

ex) 다섯 명의 학생이 받은 시험점수가 70, 80, 90 ,100, 60이라면,
평균은 (70 + 80 + 90 + 100 + 60)/5 = 80이다.

평균은 극단적인 이상치에 의해 영향을 많이 받으니 주의해야한다!

중앙값 (Median)

중앙값은 데이터셋을 크기 순으로 정렬했을 때 중앙에 위치한 값
이는 예외(이상치)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타낼 수 있는 또 다른 방법이다.

ex) 시험점수가 60, 70, 80, 90, 100일 때, 중앙값은 80이며. 만약 데이터가 짝수라면, 중앙에 있는 두 값의 평균을 중앙값으로 함

분산(Variance)

분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도를 측정한다.
분산이 크면 데이터가 넓게 펴져 있고, 작으면 데이터가 평균에 가깝게 모여있음을 의미
분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것입니다.

ex)분산 계산 예시
네 명의 학생이 받은 시험 점수가 70, 80, 90, 100일 경우
평균은 ( 70 + 80 + 90 + 100) / 4 = 85입니다.
각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다

(70 - 85)^2 = 225

(80 - 85)^2 = 25

(90 - 85)^2 = 25

(100 - 85)^2 = 225

이 값을 모두 더한 후 데이터의 개수로 나누면
분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.

여기서 125란 수치가 흩어짐 정도가 직관적이지 않음으로 그럴 때 표준편차를 사용한다.

표준편차 ( Standard Deviation )

표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지 나타내는 통계적 척도이며, 분산의 제곱근을 취하여 계산함.
표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져있음을 의미함.

ex)표준편차 계산 예시

(70 - 85)^2 = 225

(80 - 85)^2 = 25

(90 - 85)^2 = 25

(100 - 85)^2 = 225
(여기까지는 분산 계산과 동일)
분산 = (225 + 25 + 25 + 225) / 4 = 125에 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌어 약 11.8입니다.

표준편차와 분산의 관계

분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 척도
두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
분산은 데이터 값과 평균차이를 제곱하여 평균을 낸 값이어서 제곱 단위로 표현하지만 , 표준 편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 표현
분산(데이터 원래 형태), 표준편차(직관적)

2)추론통계란

표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

주로 신뢰구간, 가설검정 등을 사용
즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

ex) 그 사람의 인생 전체를 다 본 것은 아니지만 대화하면서 얻어낸 정보로 그 사람이 어떤 사람인지 추론 하는것과 같음

신뢰구간과 가설검정의 개념 파악

신뢰구간 (Confidence Interval)

신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄.

일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함.

만약 어떤 설문조사(표본)에서 평균 만족도가 75점, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있습니다.

가설검정 (Hypothesis Testing)

가설검정은 모집단에 대한 가설을 검증하기 위해 사용됨. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다,효과가 없다 등),
대립가설은(H1)은 그 반대 가설로 주장하는 바를 나타낸다(변화가 있다, 효과가 있다)입니다. p-value를 통해 귀무가설을 기각할지 여부를 결정

ex) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"입니다.*

이전 포스트

데이터 분석에 통계가 중요한 이유

다음 포스트

다양한 분석 방법

0개의 댓글