- 기술통계와 추론통계 거의 같이 쓰임
- np는 median과 mean을 쉽게 계산할 수 있게 도와줌.
- 인과관계 \= 상관관계
- 인과관계 : 원인 , 결과 분명 , 한 변수가 다른 변수에 미치는 영향
- 상관관계 : 두 변수간의 관계
❗ 조심해야할것 : 이상치,
통계가 중요한 이유
:데이터 기반의 의사결정을 내릴 수 있음
-> 데이터를 이해하고 해석
기술통계
- 평균 = Mean : 데이터의 중간의 값을 나타내는 값
- 중앙값 = Median : 데이터셋을 크기 순서대로 정렬했을때 중앙에 위치한 값
- 분산 = Variance : 데이터 값들이 평균으로부터 - 얼마나 떨어져 있는지를 나타내는 척도 -> 데이터의 흩어짐 정도!
- 분산 大 = 데이터 넓게 퍼져있음
- 분산 小 = 데이터가 평균에 가깝게 모여있음
- 분산 식
- 표준편차 = 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 척도
- ⭐원래 데이터 값과 동일한 단위로 변환
- 표준편차식
- 표준편차 - 분산 관계
- 동일하게 데이터의 변동성을 측정하는 2가지 주요 척도
추론통계
: 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검증하는 통계 방법
-> ⭐데이터의 일부를 갖고 데이터 전체를 추정하는 것이 핵심
-> 모집단과 표본은 차이가 날 수 밖에 없음
다양한 분석 방법
- 위치추정
- 데이터의 중심을 확인하는 방법
- 대표 : 평균, 중앙값
- 💻파이썬 실습 :
mean=np.mean(data)
median=np.median(data)
- 변이추정
- 데이터들이 서로 얼마나 다른지 확인하는 방법
- 범위: 데이터셋에서 가장 큰값과 작은 값의 차이를 나타내는 간단한 분포의 측도
- 범위 수식 : 최댓값-최솟값
- 데이터 분포 탐색
- 데이터들의 값들이 어떻게 이루어져 있는지 확인하기
- 대표 : 히스토그램 , box plot
- 이진 데이터와 범주 데이터 탐색
- 최빈값( 개수가 제일 많은 값 )을 주로 사용
- 이진 데이터 ( 숫자 )
- 상관관계
- 데이터들끼리 서로 관련 있는지 확인하는 방법
-> 두 변수 간의 관계 측정하는 방법- -1 or 1에 가까울수록 상관관계 높음
- 0에 가까울수록 상관관계 X
- -0.5~0.5 중간
- 두 개 이상의 변수 탐색
- 여러 데이터들끼리 서로 관련 있는지 확인
연습문제
오답 해석
2. 2 -> 기슬통계 : 데이터 요약하고 설명하는데 중점을 둠