1. 다음 맷플롯립 함수로 그릴 수 있는 알맞은 그래프를 짝 지어 보시오.
scatter()
hist()
boxplot()
① 히스토그램
② 상자 수염 그림
③ 산점도
2. 다음 중 산점도에 대한 설명으로 올바른 것은 무엇인가요?
① 이상치 파악하기 좋다.
② 3개 이상의 특성을 하나의 산점도로 그리기 어렵다.
③ 맷플롯립의 scatter() 함수에는 넘파이 배열만 사용할 수 있다.
④ 특성이 정규분포를 따르는지 쉽게 확인할 수 있다.
3. 다음 중 히스토그램의 설명으로 잘못된 것은 무엇인가요?
① 일정한 간격으로 구간을 나눈다.
② 도수는 구간 안에 포함된 데이터의 개수이다.
③ 로그 스케일로 그리면 큰 도수와 작은 도수의 차이를 작게 표현할 수 있다.
④ 두 특성(변수) 간의 상관관계를 파악할 수 있다.
4. 상자 수염 그림에서 이상치에 대한 설명으로 옳은 것은 무엇인가요?
① 데이터에 내재된 패턴을 따르지 않는 데이터이다.
② 제1사분위 보다 작고 제3사분위수 보다 큰 데이터를 말한다.
③ 수염 끝에서 최솟값과 최댓값 사이에 놓인 데이터를 말한다.
④ 이상치를 제거하지 않으면 상자 수염 그림을 그릴 수 없다.
5. ns_book7 남산도서관 대출 데이터에서 1980년 - 2022년 사이에 발행된 도서르 선택하여 다음과 같은 '발행년도' 열의 히스토그램을 그려보시오.
selected_rows = (_________________________________________________________)
plt.show()
6. 문제 5번에서 선택한 도서로 '발행년도' 열의 상자 수염 그림을 그려 보시오.
____________________________________________
plt.show()
<풀이>
1. 답
1-3 / 2-1 / 3-2
2. 답 ② 3개의 특성을 3차원으로 산점도를 그릴 수는 있지만 그림을 이해하기 어렵다. 특성이 4개 이상일 때는 산점도로 그릴 수 없다. ① 이상치를 파악하기 좋은 그래프는 상자 수염 그림이다. ③ 맷플롯립의 scatter() 함수에는 판다스 시리즈 객체도 사용할 수 있다. ④ 정규분포인지 확인할 수 있는 그래프는 히스토그램이다.
3. 답 ④ 두 특성 간의 상관관계를 표현할 수 있는 그래프는 산점도이다.
4. 답 ③ 상자 수염 그림에서 이상치는 수염을 그린 후 수염 끝에서 최솟값과 최댓값까지 놓인 데이터를 표시한다.
① 머신러닝에서의 이상치를 의미. ④ 상자 수염 그림에는 이상치가 포함된다.
5. 답 (1980 <= ns_book7['발행년도']) & (ns_book7['발행년도'] <= 2022) plt.hist(ns_book7.loc[selected_rows, '발행년도'])
6. plt.boxplot(ns_book7.loc[selected_rows, '발행년도'])