평균, 분산, 표준편차

5050·2021년 8월 1일

목록 보기

3/5

$X = \{x_1, x_2, ... , x_n\}$ 이 있다고 할 때
평균 : $E(X) = \sum_{i=1}^{n} x_i/n$ 이 된다.
편차 : 변량 - 평균 $x_i - E(X)$ n개의 편차를 가진다.
분산 : 편차 제곱의 평균 $V(X) = \sum_{i=1}^{n} (x_i- E(X))^2/n$
분산을 전개해서 좀 식을 변경한다면 $E(X^2) - \{E(X)\}^2$
으로 표현도 가능하다.

표준편차 : $\sqrt{V(X)}$

통계에서 가장 많이 쓰이는 기본적인 개념이라고 보면 된다.
그 중에서도 우리는 일상생활에서도 평균을 많이 쓰는데,
예를 들면 시험보고 시험의 평균, 연령평균, 어느 기업의 평균연봉 등

어떤 집단을 대표적으로 나타내는 값으로 많이 쓴다.
하지만, 이 것이 정말 모든 집단을 잘 대표할 수 있을까라는 물음에는
yes라고 답할 수 없다.
이상치(특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료)
A라는 회사의 평균 연봉을 구하고 싶은데, 특정 임원들의 연봉이 높다면
평균 연봉이 올라가 구직하는 자가 이 회사는 모든 직원의 연봉이 높구나라는
잘못된 결과에 도달할 수 있다.
그래서 평균을 대시하는 중앙값, 최빈값을 쓰기도 한다.

중앙값 : 모든 데이터를 크기 순으로 정렬했을 때 가운데에 있는 데이터를 선택하기 때문에 극단적인 관측값에 영향을 받지 않는다.
최빈값 : 데이터에서 가장 많이 등장한 숫자, 이산형이나 범주형 자료에서 사용된다.

역시 제일 많이 쓰이는 것은 평균이고 그 다음은 중앙값이다.
저 둘에 비해 최빈값은 잘 사용되지 않는다.

데이터의 특성에 따라 어떤 값을 쓸 것인지 잘 결정하자.

5050

하이

이전 포스트

정규분포

다음 포스트

평균, 분산, 표준편차

통계

정규분포

베이즈 정리

0개의 댓글