기술통계와 추론통계

김요한·2024년 8월 1일

통계학

목록 보기
2/30
post-thumbnail

기술통계와 추론통계

1)기술통계란

데이터를 요약하고 설명하는 통계 방법.

  • 주로 평균, 중앙값, 분산, 표준편차 등을 사용
  • 데이터를 특정 대표값으로 요약
  • 데이터에 대한 대략적 특징 파악
  • 데이터 중 예외(이상치)를 대푯값 등으로 파악 어려움으로 잘 인지해야함
    ex) 처음 만나는 사람의 전체를 알 수 없지만 기본적인(나이, 성별, 직업, 학력, MBTI)등은 대력적으로 요약할 수 있으나 그것이 전부는 아니며 예외가 존재할 수 있음을 인지

평균 (Mean)

  • 평균은 데이터의 계산 대푯값으로, 모든 데이터를 더한 후 데이터의 개수로 나누어 계산함.
  • 이는 데이터의 일반적인 경향을 파악하는 데 유용함.

ex) 다섯 명의 학생이 받은 시험점수가 70, 80, 90 ,100, 60이라면,
평균은 (70 + 80 + 90 + 100 + 60)/5 = 80이다.

  • 평균은 극단적인 이상치에 의해 영향을 많이 받으니 주의해야한다!

중앙값 (Median)

  • 중앙값은 데이터셋을 크기 순으로 정렬했을 때 중앙에 위치한 값
  • 이는 예외(이상치)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타낼 수 있는 또 다른 방법이다.

ex) 시험점수가 60, 70, 80, 90, 100일 때, 중앙값은 80이며. 만약 데이터가 짝수라면, 중앙에 있는 두 값의 평균을 중앙값으로 함

분산(Variance)

  • 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도를 측정한다.
  • 분산이 크면 데이터가 넓게 펴져 있고, 작으면 데이터가 평균에 가깝게 모여있음을 의미
  • 분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것입니다.

ex)분산 계산 예시
네 명의 학생이 받은 시험 점수가 70, 80, 90, 100일 경우
평균은 ( 70 + 80 + 90 + 100) / 4 = 85입니다.
각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다

  • (70 - 85)^2 = 225
  • (80 - 85)^2 = 25
  • (90 - 85)^2 = 25
  • (100 - 85)^2 = 225

이 값을 모두 더한 후 데이터의 개수로 나누면
분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.

여기서 125란 수치가 흩어짐 정도가 직관적이지 않음으로 그럴 때 표준편차를 사용한다.

표준편차 ( Standard Deviation )

  • 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지 나타내는 통계적 척도이며, 분산의 제곱근을 취하여 계산함.
  • 표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져있음을 의미함.

ex)표준편차 계산 예시

  • (70 - 85)^2 = 225
  • (80 - 85)^2 = 25
  • (90 - 85)^2 = 25
  • (100 - 85)^2 = 225
    (여기까지는 분산 계산과 동일)
    분산 = (225 + 25 + 25 + 225) / 4 = 125에 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌어 약 11.8입니다.

표준편차와 분산의 관계

  • 분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 척도
  • 두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
  • 분산은 데이터 값과 평균차이를 제곱하여 평균을 낸 값이어서 제곱 단위로 표현하지만 , 표준 편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 표현
    분산(데이터 원래 형태), 표준편차(직관적)

2)추론통계란

표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

  • 주로 신뢰구간, 가설검정 등을 사용
  • 즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

ex) 그 사람의 인생 전체를 다 본 것은 아니지만 대화하면서 얻어낸 정보로 그 사람이 어떤 사람인지 추론 하는것과 같음

신뢰구간과 가설검정의 개념 파악

신뢰구간 (Confidence Interval)

  • 신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄.
  • 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함.
  • 만약 어떤 설문조사(표본)에서 평균 만족도가 75점, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있습니다.

가설검정 (Hypothesis Testing)

  • 가설검정은 모집단에 대한 가설을 검증하기 위해 사용됨. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다,효과가 없다 등),
    대립가설은(H1)은 그 반대 가설로 주장하는 바를 나타낸다(변화가 있다, 효과가 있다)입니다. p-value를 통해 귀무가설을 기각할지 여부를 결정

ex) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"입니다.*

0개의 댓글