수치를 통한 연속형 자료의 요약

YongUk·2022년 9월 18일
0

Statistics

목록 보기
3/15
post-thumbnail

표와 그림을 이용한 자료 요약의 단점


  • 일관성 객관성 부족 / 작성자의 주관적 판단에 따라 달라질 수 있음
  • 추론을 위한 이론적 근거 부족
  • 이를 보완하기 위해 객관적인 수치로 자료의 분포를 파악

중심위치의 측도


평균


  • 모든 관측값의 합을 자료의 개수로 나눈 것
  • 일반적으로 가장 많이 쓰이는 중심위치 측도이다
  • 표본평균 : 표본자료의 평균
  • 주의할 점 : 극단적인 값들에 의해 영향을 많이 받음

중앙값


  • 자료를 크기순으로 배열했을 때 가운데 위치하는 값
  • 자료의 개수가 홀수면 가운데 값 / 짝수면 가운데 두 값의 평균
  • 평균과 달리 극단적인 값들에 영향을 받지 않음

최빈값


  • 관측값 중 가장 자주 나오는 값
  • 이산형, 범주형 자료에서 주로 사용
  • 연속형 자료에서는 같은 값이 다시 나오는 경우는 흔하지 않기 때문
  • 이봉형 분포에서는 최빈값이 여러 개 존재하기에 중심위치 측도로 적절하지 않음

표본평균 VS 중앙값


표본평균중앙값
장점자료 전체의 값에 의해 결정되므로 대푯값으로서의 가치가 있음극단적인 값에 영향을 받지 않음
단점극단적인 값에 영향을 받음자료의 전체가 아닌 가운데 값에 대해
  • 자료분포의 모양에 따라 중심위치의 측도가 달라짐

퍼진 정도의 측도


분산과 표준편차


  • 편차 : 표본평군은 중심위치 즉도로 사용할 때 관측값 - 표준편차
  • 편차의 합은 항상 0

표본분산


  • S2=편차의제곱합/n1S^2 = 편차의 제곱합/n-1

표본분산의 특징
일반적으로 표본분산은 모분산하고 같아지길 바란다. 하지만 표본평균을 이용하여 표본분산을 구하게되면 모분산보다 더 적은 경향이 있다. 왜냐하면 전체 집단에서 일부만 빼내기 때문에 모집단을 과소평가하려는 경향이 있다. 따라서 자유도인 n-1을 이용하여 나눈다.

자유도
3개의 물건을 3명이 나누어 가진다고 한다면 A가 1번 B가 2번을 가져가면 C에게는 선택권이 없다
따라서 이러한 경우 3명이지만 자유도를 가진사람은 2명이라고 말할 수 있다. 이를 분산과 평균에 접목시키면 표본평균을 알고있다라는 가정하에 각각의 원소들은 n개중 n-1개만 알면 나머지 하나는 표본평균에 의해 자동 결정되기에 n-1개의 자유도를 가진다고 말할 수 있다.

굳이 n-1로 나누는 이유
1. 자유도가 n-1이기 때문에 →근본적인 이유는 모르겠음
2. 분산의 기대치을 이용하면 수학적으로 증명이 가능하다
자세한 이유는 너무 어렵다..그냥 n-1만 외우자..

표본표준편차


S=(S2)S = \sqrt{(S^2)}
  • S가 크다 = 편차의 절대값이 큼 = 관측값이 평균으로부터 멀리 떨어져있음

백분위수


  • 중앙값의 개념을 확장시킨 값이라 할수 있다
  • 100×P(0P1)100 \times P(0\leq P \leq 1) 백분위수 : 자료의 100×P%100 \times P \%에 위치한 값
  • 백분위수보다 작거나 같은 자료의 수가 npnp개 이상이고 그 값보다 크거나 같은 자료의 수가 n(1p)n(1-p)개 이상인 값
  • 백분위수 구하는 법
    • npnp가 정수이면 npnp번째 값과 np+1np+1번째 값의 평균
    • npnp가 정수가 아니면 [np+1][np+1]번째 값

사분위수


  • 전체 자료를 사등분하는 값
  • 제 1사분위수 : 제 25백분위수 / 제 2사분위수 : 제 50백분위수(중앙값) / 제 3사분위수 : 제 75백분위수
  • 사분위수범위 : 제 1사분위수와 제 3사분위수사이범위
    • 상위 25%와 하위 25%를 뺀 나머지 50%의 값
    • 극단적인 값을 제외한 자료의 퍼진정도를 알 수 있음
    • 한쪽으로 치우친 자료의 퍼진정도를 나타낼때 유용함

퍼진 정도의 측도 비교


  • 범위
    • 장점 : 간편하게 구할 수 있고 해석이 용이함
    • 단점 : 자료의 양 끝 값에 의해 결정되기에 중간의 값들이나 분포특징들을 고려할수 없음
      극단적인 값에 영향을 받음
  • 표준편차 (평균과 특징이 비슷함)
    • 장점 : 전체 자료의 값을 반영함
    • 단점 : 극단적인 값에 영향을 받음
  • 사분위수범위 (중앙값과 특징이 비슷함)
    • 장점 : 극단적인 값에 영향을 받지 않음
    • 단점 : 제 1,3 사분위수의 관측값은 반영하지 않음

변동계수(coefficient of Variation : CV)


  • 표준편차, 사분위수범위, 범위가 모두 적절하지 않은 경우 사용함
    • 단위가 다른 경우
    • 중심위치가 매우 다른 두 자료의 경우
    • ex) 평균 50 표준편차 5인 자료와 평균 20 표준편자 5인 자료를 비교
  • 자료의 단위에 영향을 받지 않는 상대적인 측도가 필요함
  • 변동계수 : CV=표준편차평균×100CV =\frac{표준편차}{평균} \times 100
  • 표본평균에 대해 상대적인 퍼진 정도를 백분율로 나타낸 값
  • 위 예시를 적용해 보자면 전자는 10, 후자는 25가 나온다 따라서 후자의 분포가 더 퍼져있음을 알 수 있다.
  • 이처럼 평균이 크게 차이가 나거나 단위가 다른 두값을 비교할 수 있다.

상자그림


  • 상자그림은 수치를 그림과 함께 제공하고 여러개의 항목을 비교하기에 용이함
  • 중심위치, 퍼진정도, 대칭성, 이상치 등 분포의 다양한 특성을 하나의 그림에 포함시킬 수 있음

그리는 과정


  1. 사분위수, 사분위수 범위 계산
  2. 사분위수 범위(IQR : Q1,Q3)를 상자로 연결하고 중앙값(Q2)에 수직선을 그음
  3. 상자의 양끝에서 1.5×IQR1.5\times IQR를 경계로 하여 이 범위의 최솟값과 최댓값을 선으로 연결
  4. 이 범위를 벗어난 자료는 *로 표시(이상치)

0개의 댓글