혼자 공부하는 데이터 분석 with 파이썬 04-1 확인문제

손지호·2024년 1월 28일
0
post-custom-banner

1. 다음 중 평균을 계산할 수 있는 메서드나 함수가 아닌 것은 무엇인가요?

① 판다스의 describe() 메서드
② 판다스의 info() 메서드
③ 판다스의 mean() 메서드
④ 넘파이의 mean() 메서드

2. 중앙값에 대해 올바르게 설명한 것은 무엇인가요?

① 데이터를 랜덤하게 섞은 후 가운데 위차한 값을 선택한다.
② 데이터 개수가 짝수 개 일 떄는 중앙값이 두 개가 된다.
③ 평균과 중앙값이 같으려면 데이터 개수가 홀수여야 한다.
④ 판다스 quantile() 메서드로 중앙값을 계산할 수 있다.

3. 다음 배열의 분산과 표준편차를 판다스 함수로 구하면 얼마인가요?

a - [1, 10, 3, 6, 20 ]

① 분산 : 56.5, 표준편차 : 7.517
② 분산 : 45.2, 표준편차 : 6.723
③ 분산 : 13.3, 표준편차 : 3.647
④ 분산 : 63.7, 표준편차 : 7.981

4. 앞에서 만든 ns_book7 데엍프레임에서 평균 대출건수가 가장 높은 10개의 출판사를 추출하는 명령을 완성해 보세요. (판다스의 groupby() 메서드 사용!)

ns_book7[['출판사', '대출건수']].______________________________________

5. 다음은 25%와 75% 경계에 해당하는 대출건수를 찾아 이 범위에 속한 도서가 전체 도서 중 몇 퍼센트를 차지하는지 구하는 명령이다. 빈칸을 채워 명령을 완성해보시오. (ns_book7 데이터프레임의 '대출건수' 열에서 quantile() 메서드를 호출한다.)

target_range = ______________________________________________________
target_bool_idx = (ns_book7['대출건수'] >= target_range[0]) & (ns_book7['대출건수'] <= target_range[1])
target_bool_idx.sum()/len(ns_book7)*100
>>> 51.51737134060568







<풀이>

1. 답 ②

info() 메서드는 데이터프레임의 행과 열의 개수, 누락된 값의 개수, 데이터 타입 등을 제공하지만, 평균을 계산하지는 않는다.

2. 답 ④

① 중앙값은 데이터를 오름차순으로 정렬한 하 가운데 위치한 값. ② 데이터 개수가 짝수 개 일때는 가운데 위치한 두 개의 값을 평균하여 중앙값을 계산한다. ③ 데이터 개수와 상관없이 평균을 중심으로 양쪽에 데이터가 동일한 간격으로 퍼져있다면 평균과 중앙값이 같다.

3. 답 ①

pd.Series([1, 10, 3, 6, 20]).var() → 56.5
pd.Series([1, 10, 3, 6, 20]).std() → 7.517

4. 답 groupby('출판사').mean().sort_values('대출건수', ascending=False).head(10)


5. 답 np.array(ns_book7['대출건수'].quantile(q=[0.25, 0.75]))

profile
초보 중의 초보. 열심히 하고자 하는 햄스터!
post-custom-banner

0개의 댓글