240804

Gi Woon Lee·2024년 8월 4일
0

TIL

목록 보기
31/78

통계학 기초 수업 1주차를 마무리했다.

공부 방법은 다음과 같다.

  1. 강의 자료 필기 노트 한 장 정리
  2. 강의 듣기
  3. 필기 노트 + 강의 자료 ipynd 정리

pandas - plot VS matplotlib - plt.bar

  • pandas 의 plot 메서드 사용 이유:
  1. 간편함: pandas 데이터 구조(Series, DataFrame)에서 바로 시각화가 가능하여 코드가 간결하다.
  2. 속성 유지: 데이터의 인덱스와 값이 자동으로 x,y축에 mapping된다.
  3. 다양한 조유릐 그래프 지원: 'kind'매개변수를 사용해 다양한 종류의 그래프(line, bar, hist, box 등)를 쉽게 그릴 수 이따.
  • matplotlibd 의 plt.bar 사용 이유:
  1. 세부적인 제어가 가능하다. (축, 레이블, 제목 등 개별 설정 가능)

pandas - plot 메서드는 기본적인 시각화를 빠르고 쉽게 수행할 수 있게 하며,
matplotlib 은 더 복잡한 구조를 설계할 수 있도록 한다.

막대그래프 VS 히스토그램

  • 막대그래프:

    • 범주형 데이터(text)
    • 구간 불필요
  • 히스토그램:

    • 수치형 데이터(number)
    • 구간 필요

시험 점수 데이터의 경우 숫자 데이터 즉, 수치형 데이터이다. 또한 각 구간 별 분포를 나타내야 하기 때문에 히스토그램을 사용한다.
만족도 조사의 경우 "매우 만족함" "불만족" 등의, 텍스트 데이터이다. 이 경우 구간은 필요 없으며 변수 별 개수를 나타내는 막대그래프를 사용한다.

np.corrcoef()

: numpy.corrcoef(x, y)
Numpy 함수. 두 개 이상의 배열 간의 피어슨 상관계수를 계산한다.

  • 행렬을 반환하며 비대각선 요소가 두 변수 간의 상관 계수를 나타낸다. 따라서 [1,0] 혹은 [0,1]을 통해 상관 계수를 선택해준다.

피어슨 상관계수:

두 변수 간의 선형 관계의 강도와 방향을 측정한다.

스피어만 상관계수:

변수의 순위를 사용하여 두 변수 간의 관계를 측정한다.
1. 순위 할당
2. 순위 간 차이 계산
3. 스피어만 상관계수 계산

0개의 댓글