범주형 자료의 요약

·2021년 12월 4일
0

NIPA AI 교육

목록 보기
3/31

다수의 범주가 반복해서 관측

관측값의 크기보다 포함되는 범주에 관심

각 범주에 속하는 관측값의 개수를 측정
-> 전체에서 차지하는 각 범주의 비율 파악
-> 효율적으로 범주 간의 차이점을 비교 가능

많이 쓰이는 것 - 도수분포표
가장 대표적인 예) 강의 만족도 설문

도수(개수) 30
상대도수 0.3(30%)
누적 상대도수 0.3 + 0.1 = 0.4 (누적)
( 다 더해서 1 )

막대그래프
장점: 각 범주가 가지는 도수 크기 차이를 비교하기 쉬움
단점: 각 범주가 차지하는 비율의 비교는 어려움

-- 실습

import pandas as pd 
import numpy as np

# drink 데이터

drink = pd.read_csv("drink.csv")
print(drink)
"""
1. 도수 계산
"""
drink_freq = drink[drink['Attend'] == 1]['Name'].value_counts()
#drink에서 attend값이 1인 데이터들만 Name 기준으로 값을 카운트!

print("도수분포표")
print(drink_freq)

from elice_utils import EliceUtils
import matplotlib.pyplot as plt
elice_utils = EliceUtils()    
# 술자리 참석 상대도수 데이터 
labels = ['A', 'B', 'C', 'D', 'E']
ratio = [4,3,2,2,1]
    
#막대 그래프
fig, ax = plt.subplots()

"""
1. 막대 그래프를 만드는 코드를 작성해 주세요
"""
plt.bar(labels,ratio)

# 출력에 필요한 코드
plt.show()
fig.savefig("bar_plot.png")
elice_utils.send_image("bar_plot.png")
profile
백엔드 개발자. 공동의 목표를 함께 이해한 상태에서 솔직하게 소통하며 일하는 게 가장 즐겁고 효율적이라고 믿는 사람.

0개의 댓글