IQR (Inter Quantile Range): 백분위 기준 75%(Q3)와 백분위 기준 25%(Q1)의 차이
분산 : 평균 기준으로 데이터가 퍼진 정도
표준 편차: 분산의 제곱근
변동계수: 값 스케일에 따라 분산이 달라지는 것을 보정하기 위한 방법
기본 통계 함수
mean() : 데이터의 평균값 계산median() : 데이터의 중앙값 계산std() : 데이터의 표준편차 계산var() : 데이터의 분산 계산sum() : 데이터의 합계 계산prod() : 데이터의 곱 계산퍼센타일 및 백분위 함수
percentile() : 데이터의 특정 퍼센타일 값 계산quantile() : 데이터의 특정 분위 값 계산최소값 / 최대값 관련 함수
min() : 데이터의 최소값 반환max() : 데이터의 최대값 반환argmin() : 최소값의 인덱스 반환argmax() : 최대값의 인덱스 반환데이터 생성 및 처리 함수
histogram() : 데이터에서 히스토그램 계산unique() : 데이터에서 고유값 반환bincount() : 정수 배열의 값의 빈도 계산랜덤 데이터 생성
np.random.seed()np.seed(42)np.random.rand()np.random.rand(3,2)np.random.randn()np.random.randn(4)np.random.randint()np.random.randint(1,10,size=5)np.random.uniform()np.random.uniform(0,10, size=5)np.random.normal() np.random.normal(0,1,size=10np.random.choice()np.random.choice([1,2,3], sice=2, replace=False)■ 추가 참고 자료 - https://wikidocs.net/198620
확률 변수가 취할 수 있는 경우가 2가지인 경우 (예 - 동전 던지기, 클릭 등)
확률 질량 함수: 특정 값이 발생할 확률을 나타내는 함수
베르누이 확률 질량 함수 수식
이항 분포의 확률 질량 함수 수식
이항 분포의 정규 근사
좌변 :
우변 :
정규 근사 조건

정규 분포의 장점
정규 분포 표현식

공학, 사회과학 등에 자주 사용하는 기초통계 모듈과 함수를 모아놓은 라이브러리
Scipy 자주 쓰는 라이브러리
stats : 통계 분석과 확률 분포 관련 함수 제공norm : 정규 분포 관련 함수 (PDF, CDF, 랜덤 샘플링 등)uniform : 균등 분포bernoulli : 베르누이 분포binom : 이항분포ttest_ind : 독립 두 표본에 대한 t-검정ttest_rel : 대응표본 t-검정mannwhiteneyu : Mann-Whitney U 비모수 검정chi2_contingency : 카이제곱 독립성 검정shapiro : Shapiro-Wilk 정규성 검정kstest : Kolmogorov-Smirnov 검정 (분포 적합성 검정)probplot : Q-Q plot 생성 (정규성 시각화)pearsonr : Pearson 상관계수 계산spearmanr : Spearman 순위 상관계수 계산describe : 기술 통계량 제공 (평균, 표준편차 등)scipy.stats 메소드
▶ scipy.stats 메뉴얼
rvs : 난수 생성
scipy.stats.norm.rvs(loc= 1150, scale = 150, size = 1, random_state= None)loc : 평균scale : 표준편차size : 생성할 데이터 갯수random_state : 시드 설정pdf : 특정 위치의 확률 구하기
scipy.stats.norm.pdf(x = 1380, loc = 1150, scale = 150)x : 구할 x축 값loc : 평균scale : 표준편차cdf : 누적확률 분포 구하기
scipy.stats.norm.cdf(x = 1380, loc = 1150, scale = 150)x : 구할 x축 값loc : 평균scale : 표준편차ppf : 백분율을 알때 거꾸로 x 값 구하기
scipy.stats.norm.ppf(q = 0.937, loc = 1150, scale = 150)q : 백분율loc : 평균scale : 표준편차위치 추정: 데이터의 중심을 확인하는 방법
→ 대표적으로 평균, 중앙값 확인
변이추정: 데이터들이 서로 얼마나 다른지 확인하는 방법
→ 분산, 표준편차, 범위(range) 등을 사용
데이터 분포 탐색: 데이터의 값들이 어떻게 이루어져 있는지 확인
→ 히스토그램, 박스 플롯: 데이터의 분포를 시각적으로 표현하는 대표적인 방식
이진 데이터와 범주 데이터 탐색: 데이터들이 서로 얼마나 다른지 확인
→ 최빈값(개수가 가장 많은 값)을 주로 사용
→ 파이 차트, 바 그래프: 이진 데이터와 범주 데이터의 분포를 표현하는 대표적인 방법
상관관계: 데이터끼리 서로 관련이 있는지 확인하는 방법
→ 상관계수 : 두 변수 간의 관계 측정
인과관계와 상관관계의 차이
두 개 이상의 변수 탐색 : 여러 데이터들끼리 서로 관련이 있는지 확인
→ 다변량 분석 : 여러 변수 간의 관계를 분석하는 방법