수치형 자료의 요약

·2021년 12월 4일
0

NIPA AI 교육

목록 보기
4/31

범주형 자료와 달리 수치로 구성되어 있기에 통계값을 사용한 요약이 가능함
시각적 자료로는 이론적 근거 제시가 쉽지 않은 단점을 보완함

많은 양의 자료를 의미있는 수치로 요약하여 대략적인 분포상태를 파악 가능

그래프 등을 꼭 그려서 보여주지 않아도 통계값 수치를 통해 의미 파악하기가 더 좋음

  1. 평균
import numpy as np
np.mean(array)

# 각 커피의 카페인 함량의 평균을 구하기
coffee=np.array([202,177,121,148,89,121])
cf_mean = np.mean(coffee)

관측값들을 대표할 수 있는 통계값
수치형 자료의 통계값 중 가장 많이 사용되는 방법

관측값의 산술평균으로 사용
통계에서 기초적인 통계 수치로 가장 많이 사용
(단점) 극단적으로 큰 값이나 작은 값의 영향을 많이 받음

  1. 퍼진 정도의 측도
    평균만으로 분포 파악 역부족
    -> 평균 외 분포가 퍼진 정도를 측도할 수치 필요
    -> 분산, 표준편차 등을 퍼진 정도의 측도로 사용

분산
from statistics import variance
variance()
자료가 얼마나 흩어졌는지 숫자로 표현
각 관측값이 자료의 평균으로부터 떨어진 정도

표준편차
from statistics import stdev
stdev()

from statistics import stdev
import numpy as np

coffee = np.array([202,177,121,148,89,121,137,158])

"""
1. 표준편차 계산
"""
cf_std = stdev(coffee)

# 소수점 둘째 자리까지 반올림하여 출력합니다. 
print("Sample std.Dev : ", round(cf_std,2))

분산의 단위 = 관측값의 단위의 제곱
-> 관측값의 단위와 불일치
분산의 양의 제곱근은 관측값과 단위가 일치
분산의 양의 제곱근을 표준편차라 하고 s로 표기

  1. 히스토그램 (시각화)
    수치형 자료를 일정한 범위를 갖는 범주로 나누고 막대그래프와 같은 방식으로 그림

    도수 비교 > 범주-막대그래프 / 수치-히스토그램

    X축 : 계급 - 계급을 촘촘하게 만들 수도 있고 더 넓은 범위로 만들 수도.
    Y축 : 빈도

    히스토그램 특징

  • 자료의 분포를 알 수 있음
  • 계급구간과 막대의 높이로 그림
  • 도수, 상대도수를 막대 높이로 사용
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    from elice_utils import EliceUtils 
    elice_utils = EliceUtils()

카페인 데이터

coffee = np.array([202,177,121,148,89,121,137,158])

fig, ax = plt.subplots()

"""
1. 히스토그램을 그리는 코드를 작성해 주세요
"""
#plt.hist(coffee)
plt.hist(coffee, bins=15)

bins 값을 주면 계급의 개수를 그에 맞게 설정

히스토그램을 출력합니다.

plt.show()
fig.savefig("hist_plot.png")
elice_utils.send_image("hist_plot.png")

profile
백엔드 개발자. 공동의 목표를 함께 이해한 상태에서 솔직하게 소통하며 일하는 게 가장 즐겁고 효율적이라고 믿는 사람.

0개의 댓글