범주형 자료와 달리 수치로 구성되어 있기에 통계값을 사용한 요약이 가능함
시각적 자료로는 이론적 근거 제시가 쉽지 않은 단점을 보완함
많은 양의 자료를 의미있는 수치로 요약하여 대략적인 분포상태를 파악 가능
그래프 등을 꼭 그려서 보여주지 않아도 통계값 수치를 통해 의미 파악하기가 더 좋음
import numpy as np
np.mean(array)
# 각 커피의 카페인 함량의 평균을 구하기
coffee=np.array([202,177,121,148,89,121])
cf_mean = np.mean(coffee)
관측값들을 대표할 수 있는 통계값
수치형 자료의 통계값 중 가장 많이 사용되는 방법
관측값의 산술평균으로 사용
통계에서 기초적인 통계 수치로 가장 많이 사용
(단점) 극단적으로 큰 값이나 작은 값의 영향을 많이 받음
분산
from statistics import variance
variance()
자료가 얼마나 흩어졌는지 숫자로 표현
각 관측값이 자료의 평균으로부터 떨어진 정도
표준편차
from statistics import stdev
stdev()
from statistics import stdev
import numpy as np
coffee = np.array([202,177,121,148,89,121,137,158])
"""
1. 표준편차 계산
"""
cf_std = stdev(coffee)
# 소수점 둘째 자리까지 반올림하여 출력합니다.
print("Sample std.Dev : ", round(cf_std,2))
분산의 단위 = 관측값의 단위의 제곱
-> 관측값의 단위와 불일치
분산의 양의 제곱근은 관측값과 단위가 일치
분산의 양의 제곱근을 표준편차라 하고 s로 표기
히스토그램 (시각화)
수치형 자료를 일정한 범위를 갖는 범주로 나누고 막대그래프와 같은 방식으로 그림
도수 비교 > 범주-막대그래프 / 수치-히스토그램
X축 : 계급 - 계급을 촘촘하게 만들 수도 있고 더 넓은 범위로 만들 수도.
Y축 : 빈도
히스토그램 특징
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from elice_utils import EliceUtils
elice_utils = EliceUtils()
coffee = np.array([202,177,121,148,89,121,137,158])
fig, ax = plt.subplots()
"""
1. 히스토그램을 그리는 코드를 작성해 주세요
"""
#plt.hist(coffee)
plt.hist(coffee, bins=15)
plt.show()
fig.savefig("hist_plot.png")
elice_utils.send_image("hist_plot.png")