통계학 기초 수업 1주차를 마무리했다.
pandas - plot 메서드는 기본적인 시각화를 빠르고 쉽게 수행할 수 있게 하며,
matplotlib 은 더 복잡한 구조를 설계할 수 있도록 한다.
막대그래프:
히스토그램:
시험 점수 데이터의 경우 숫자 데이터 즉, 수치형 데이터이다. 또한 각 구간 별 분포를 나타내야 하기 때문에 히스토그램을 사용한다.
만족도 조사의 경우 "매우 만족함" "불만족" 등의, 텍스트 데이터이다. 이 경우 구간은 필요 없으며 변수 별 개수를 나타내는 막대그래프를 사용한다.
np.corrcoef()
: numpy.corrcoef(x, y)
Numpy 함수. 두 개 이상의 배열 간의 피어슨 상관계수를 계산한다.
피어슨 상관계수
:두 변수 간의 선형 관계의 강도와 방향을 측정한다.
스피어만 상관계수
:변수의 순위를 사용하여 두 변수 간의 관계를 측정한다.
1. 순위 할당
2. 순위 간 차이 계산
3. 스피어만 상관계수 계산