ex) 다섯 명의 학생이 받은 시험점수가 70, 80, 90 ,100, 60이라면,
평균은 (70 + 80 + 90 + 100 + 60)/5 = 80이다.
- 평균은 극단적인 이상치에 의해 영향을 많이 받으니 주의해야한다!
ex) 시험점수가 60, 70, 80, 90, 100일 때, 중앙값은 80이며. 만약 데이터가 짝수라면, 중앙에 있는 두 값의 평균을 중앙값으로 함
ex)분산 계산 예시
네 명의 학생이 받은 시험 점수가 70, 80, 90, 100일 경우
평균은 ( 70 + 80 + 90 + 100) / 4 = 85입니다.
각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다
- (70 - 85)^2 = 225
- (80 - 85)^2 = 25
- (90 - 85)^2 = 25
- (100 - 85)^2 = 225
이 값을 모두 더한 후 데이터의 개수로 나누면
분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.
여기서 125란 수치가 흩어짐 정도가 직관적이지 않음으로 그럴 때 표준편차를 사용한다.
ex)표준편차 계산 예시
- (70 - 85)^2 = 225
- (80 - 85)^2 = 25
- (90 - 85)^2 = 25
- (100 - 85)^2 = 225
(여기까지는 분산 계산과 동일)
분산 = (225 + 25 + 25 + 225) / 4 = 125에 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌어 약 11.8입니다.
ex) 그 사람의 인생 전체를 다 본 것은 아니지만 대화하면서 얻어낸 정보로 그 사람이 어떤 사람인지 추론 하는것과 같음
신뢰구간과 가설검정의 개념 파악
신뢰구간 (Confidence Interval)
- 신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄.
- 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함.
- 만약 어떤 설문조사(표본)에서 평균 만족도가 75점, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있습니다.
귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다,효과가 없다 등),대립가설은(H1)은 그 반대 가설로 주장하는 바를 나타낸다(변화가 있다, 효과가 있다)입니다. p-value를 통해 귀무가설을 기각할지 여부를 결정ex) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"입니다.*