[data science] 분산과 표준편차

덴장·2026년 4월 17일

data

목록 보기
17/55
  • KDE Plot을 통한 데이터 분포 비교

    두 개의 KDE Plot을 통해 고등학생 남학생들과 다양한 나이대의 남학생들의 키 데이터 분포를 비교한다.
    파란색 그래프는 다양한 나이대의 남학생들로 인해 더 넓게 퍼져 있고, 주황색 그래프는 고등학생들만 포함하여 더 좁게 퍼져 있다.
    분산과 표준 편차의 개념과 중요성

    분산(Variance)과 표준 편차(Standard Deviation)는 데이터가 얼마나 넓게 퍼져 있는지를 나타내는 중요한 통계적 지표이다.
    분산을 구하려면 각 데이터의 편차의 제곱을 평균 내고, 표준 편차는 이 값의 제곱근을 이용한다.
    데이터의 편차 계산 방법

    데이터의 평균을 구하고, 각 값에서 평균을 빼서 편차를 구한다.
    편차를 제곱하는 이유는 편차가 큰 값들을 더 부각시키기 위해서이다.
    모집단과 표본에서의 분산 계산 차이

    모집단에서는 데이터 개수로 나누지만, 표본에서는 (데이터 개수 - 1)로 나누어 분산을 계산한다.
    이는 표본이 모집단을 대표할 수 있도록 편차의 정도를 조정하기 위함이다.
    Pandas와 Numpy의 분산/표준 편차 계산 차이

    Pandas는 기본적으로 n-1을 사용하여 계산하고, Numpy는 n을 사용한다.
    두 방법 모두 데이터의 대략적인 특징을 파악하는 데 큰 차이는 없다.

*분산

df['height'].var()

*표준편차

df['height'].std()


profile
개발자

0개의 댓글