[이렇게 쉬운 통계학] 3장 평균과 분산 이해하기

data_buddha·2023년 9월 30일
0

1. 평균은 대푯값의 대표?

  • 모든 데이터를 나열하여 데이터의 특징을 파악할 수 없음
  • 따라서, 데이터 전체의 특징을 단 하나의 데이터로 나타낼 수 있음. 이를 '대푯값'이라고 함
  • 대푯값에는 '평균', '중앙값', '최빈값'이 있음
  • 평균의 아킬레스건 '특잇값Outlier'
  • 평균은 데이터 전체의 중심에 위치하고 이는 큰 수의 영향을 받기 때문

2. 특잇값에 강한 '중앙값'

  • 중앙값 = 강건한Robust 대푯값
  • 중앙값이란 데이터를 작은 순서(또는 큰 순서)로 나열했을 때 '가장 가운데' 위치에 있는 수치
  • 단순히 정렬되어 있는 값에서 중앙에 있는 값을 선정한 것이기에 특잇값에 크게 흔들리지 않음

3. 가장 많은 데이터가 '최빈값'

  • 인기투표로 말하자면 가장 표를 많이 받은 사람으로 최빈도값, 모드mode, 유행값 등으로도 표현
  • 연속량 데이터의 경우 클래스를 어떻게 구분하느냐에 따라 최빈값의 클래스가 달라짐

4. 평균, 중앙값, 최빈값의 위치관계는?

  • 데이터가 균형을 이룬 정규분포 형태의 그래프일 경우 평균, 중앙값, 최빈값은 거의 같은 위치에 있음
  • 데이터가 정규분포를 보일 경우 평균을 대푯값으로 사용하는 것이 일반적
  • 평균을 대푯값으로 사용하는 것이 일반적인 이유는 '분산'과의 궁합이 좋기 때문
  • 그래프의 분포가 왼쪽으로 길게 늘어진 경우 '평균<중앙값<최빈값'
  • 그래프의 분포가 오른쪽으로 길게 늘어진 경우 '평균>중앙값>최빈값'

5. 산포도Dispersion을 나타내는 '사분위수, 상자수염그림'

  • 대푯값만으로 데이터의 특성을 온전히 파악 불가능
  • 데이터는 거의 흩어진 상태 -> 흩어짐의 정도 역시 중요한 데이터의 특징
  • 데이터의 최솟값~최댓값 = 범위Range
  • 최솟값에서부터 4분의 1 위치(25%)에 있는 데이터가 '제 1사분위수'
  • 4분의 2위치 데이터가 '제 2사분위수(중앙값)'
  • 4분의 3위치 데이터가 '제 3사분위수'

6. 평균에서 '분산'으로

  • 평균을 사용하여 데이터의 산포도를 보는 것이 '분산'
  • 산포도를 나타내는 값 = '분산'
  • 편차 = (각)데이터 - 평균 -> 편차의 총합은 0
  • 각 데이터의 편차를 단순히 더하기만 해서는 쓸모가 없다!
  • 평균편차는 각 데이터의 편차를 '거리'의 개념으로 파악하고 편차에 '절댓값'을 씌운 후 계산 이는, 편차의 합계가 0인 문제를 해결
  • But, 정규분포표를 사용할 때는 '표준편차(분산)'가 더 편하기 때문에 '표준편차(분산)'을 사용
  • '제곱하여 더하면 0이 되지 않는다는 아이디어' = '분산'

8. '분산'에서 '표준편차'로

  • 분산에는 2가지 단점이 존재

    1. 분산값 자체가 너무 큼 : 편차에 제곱을 하기 때문에 '차이를 두드러지게 한다'라고 표현할 수 있겠지만, 실제 각 데이터와 평균과의 차이를 비교하면 뭔가 부족함
    2. 단위가 변함 : 키를 나타내는 단위를 m라 하고 이때 분산을 구할 경우 m^2으로 단위가 변하게 됨 즉, 길이가 면적으로 변하게 됨
  • 단위를 무시하고 분산을 사용해도 되지만,

    1. 수치가 너무 커지지 않고
    2. 단위를 원래로 되돌린 또 하나의 지표를 원함
  • 위의 요구사항을 만족하는 지표가 '표준편차'

  • 표준편차=분산표준편차 = \sqrt{분산}

9. 표준편차 계산하기

  • 평균 -> 편차 -> 분산 -> 표준편차
profile
来日方长 : 앞길이 구만리 같다; 앞길이 희망차다. 장래의 기회가 많다.

0개의 댓글