기초통계학 - (2-1) 기술통계-중심경향값

Kyung Jae, Cheong·2022년 8월 14일

기초통계학(요약)

목록 보기
2/9

중심경향값

Keyword - 중심경향값, 평균, 중앙값, 최빈값, 정규분포, 왜도


중심경향값 - 자료를 대표하는 값

  • 자료를 도표화 했을때 많은 자료가 어떤 특정한 값으로 몰리는 현상을 중심경향(central tendency; 집중경향)이라함.
  • 중심경향을 나타나는 특정한 값을 중심경향값(measure of central tendency)이라 함.
  • 평균(mean), 중앙값(median), 최빈값(mode) 등이 있음

평균(Mean)

  • 가장 흔하게 쓰이는 중심경향값.
  • μ, m, x̄ 등으로 표기함.
  • 전체 사례수의 값을 더한 뒤 총 사례 수로 나눈 값.
    xˉ\bar x = 1n\frac{1}{n}(X1+X2+...+Xn)(X_1+X_2+...+X_n) = ΣXin\frac{\Sigma X_i}{n}
  • 자료를 대표하는 중심경향값으로 가장 많이 쓰임.
  • 이상치(outlier)의 영향을 많이 받고, 자료가 변함에 따라 민감하게 변화함.

중앙값(Median)

  • 크기에 의해 숫자를 나열했을때 중앙에 위치하는 값.
  • M^\hat M, MeM_e, MdM_d 등으로 표기함.
  • 사분위수의 2사분위값(Q2Q_2), 50% percentile
    - n수가 홀수면 중앙에 위치한값
    M^=Yn+12\hat M = Y_{\frac{n+1}{2}}
    - n수가 짝수면 중앙의 두 값의 평균값
    M^\hat M = Yn/2+Y(n/2+1)2\frac{Y_{n/2}+Y_{(n/2+1)}}{2}
  • 서열에 영향을 주지 않는 범위에서 자료의 변화에 의해 변하지 않음.

최빈값(Mode)

  • 분포에서 가장 많은 도수를 차지하고 있는 값.
  • MoM_o로 표기함
  • 경우에 따라 여러개가 존재할 수 있기 때문에 중심경향값으로는 잘 쓰이지 않음.
  • 최다 도수의 변화를 주지 않는 한 변하지 않음.

정규분포(Normal distribution)

  • 모집단의 분포 및 표본평균의 분포를 그릴때 가장 많이 쓰이는 형태의 분포
  • 최빈값이 하나인 unimodal distribution(단봉분포)이며, 한점을 기준으로 좌우 대칭
  • 평균과 중앙값과 최빈값이 일치함.
  • 다음 파트에서 다루게 될 표준편차와 평균 값에 따라 모양이 결정됨.
    N(μ,σ2)N(μ,σ^2)

왜도(Skewness)

  • 분포의 비대칭 정도(기울어진 방향, 기울어진 정도)를 나타내는 값
  • 양수(+)인경우 오른쪽 꼬리가 길어지는 정적편포(positively skewed distribution)
    - Mode < Median < Mean
  • 음수(-)인경우 왼쪽 꼬리가 길어지는 부적편포(negatively skewed distribution)
    - Mean < Median < Mode
profile
일 때문에 포스팅은 잠시 쉬어요 ㅠ 바쁘다 바빠 모두들 화이팅! // Machine Learning (AI) Engineer & BackEnd Engineer (Entry)

0개의 댓글