이 있다고 할 때
평균 : 이 된다.
편차 : 변량 - 평균 n개의 편차를 가진다.
분산 : 편차 제곱의 평균
분산을 전개해서 좀 식을 변경한다면
으로 표현도 가능하다.
표준편차 :
통계에서 가장 많이 쓰이는 기본적인 개념이라고 보면 된다.
그 중에서도 우리는 일상생활에서도 평균을 많이 쓰는데,
예를 들면 시험보고 시험의 평균, 연령평균, 어느 기업의 평균연봉 등
어떤 집단을 대표적으로 나타내는 값으로 많이 쓴다.
하지만, 이 것이 정말 모든 집단을 잘 대표할 수 있을까라는 물음에는
yes라고 답할 수 없다.
이상치(특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료)
A라는 회사의 평균 연봉을 구하고 싶은데, 특정 임원들의 연봉이 높다면
평균 연봉이 올라가 구직하는 자가 이 회사는 모든 직원의 연봉이 높구나라는
잘못된 결과에 도달할 수 있다.
그래서 평균을 대시하는 중앙값, 최빈값을 쓰기도 한다.
중앙값 : 모든 데이터를 크기 순으로 정렬했을 때 가운데에 있는 데이터를 선택하기 때문에 극단적인 관측값에 영향을 받지 않는다.
최빈값 : 데이터에서 가장 많이 등장한 숫자, 이산형이나 범주형 자료에서 사용된다.
역시 제일 많이 쓰이는 것은 평균이고 그 다음은 중앙값이다.
저 둘에 비해 최빈값은 잘 사용되지 않는다.
데이터의 특성에 따라 어떤 값을 쓸 것인지 잘 결정하자.