통계 Orientation
기술통계 : Descriptive Statistics
통계란 여러가지 현상에 대해서 수리적으로 정리, 문서, 예측하는 작업, 기술통계란 수집된 자료를 분석하는 것
모집단(Population)과 표본(Sample)
- 모수 : 모집단의 평균(모평균), 분산(모분산), 상관계수 등
- 표본 추출(sampling), 표본크기, 표본통계랑
- 추정량(estimator)와 추정치(estimate)
- 표본추출방법 : 무작위추출, sampling with/without replacement
시각화 도구
도수분포표 : 빈도를 나타내는 빈도표
- 직관적으로 인식되는 형태가 아니라 일일이 숫자를 비교해야 한다는 단점이 있음
히스토그램 : 바, 파이 형태
- import matplotlib
상자수염그림
- import seaborn
확률(Probability)
무작위 추출의 불확정성을 수반한 현상을 해석하기 위한 개념
- 확률변수(Random Variable)
추정(모수를 추측하는것)과 검정(모집단의 통계적 성질에 대한 가설을 세우고, 판단하는 기법)
- 점추정,구간추정, 가설, 검정 통계량 : 추리통계에서 사용
이산확률 변수
이산형(확률변수로 취할수 있는 값들이 셀수 있는 데이터일때) <=> 연속형 확률변수
- 1차원/2차원
확률함수 : P(x)
기대값 : E(X) , 확률변수의 평균
이산확률 분포
베르누이분포 : 1이 나오면 성공/0이 나오면 실패 (나올 확률 p)
이항분포 : p의 확률 n번 시행
기하 분포 : 베르누이 시행에서 처음 성공할때의 시행 횟수 분포
푸아송 분포 : 임이의 사건이 단위 시간당 발생하는 건수에 따른 확률 분포
연속확률 변수
범위의 면적이 확률값
연속확률 분포
분포
E(X) : 확률변수의 기대값
V(X) : 확률변수의 분산
- 카이제곱/t/F 분포 : 추정과 검정에 사용될 특수한 확률분포
정규분포
Gaussian Distribution
- 표준정규 분포 : 정규화 N(0:기대값,1:분산)
''' norm(기대값,분산) '''
지수분포
어떤 사건이 발생하는데 소요되는 시간에 따른 확률분포
''' expon(람다) '''
카이제곱 분포
분산의 구간추정이나 독립성 검정에서 사용되는 확률분포.
서로 독립인 복수의 표준 정규 분포로 정의된다.
왼쪽으로 취우친 분포
0이상의 실수값
''' chi2(n) '''
t 분포
검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정
좌우대칭인 분포
실수전체
''' t(n) '''
F 분포
분산분석등에서 사용되는 확률분포
0이상의 실수값
''' f(n1, n2) '''
추리통계 : Estimation
점/구간 추정, 신뢰구간
Test
Hypothesis(가설) test
- 귀무가설
- 대립가설
- 오류 : 1종/2종
- 유의수준 : Significance Level
- 유의확률 : p-Value, 귀무가설을 기각할수 있는 최소한의 확률
- 단측/양측 검정
가설검정의 절차
- 가설수립->유의수준결정->기각역설정->통계량 계산->의사결정
상관 분석: Correlation Analysis
두 변수 간의 성관관계 정도를 나타내는 지수인 상관계수 사용
머신 러닝 : Machine Learning
지도학습
- 분류/회귀
비지도학습
강화학습
회귀와 분류
회귀(Regression)
Linear Regression
학습 데이터를 통해 데이터의 분포를 가장 잘 표현하는 선형관계의 일차함수 가중치 W 와 바이어스 b를 찾아가는 과정
- 손실함수(Loss function)
- Gradient Descent
분류
이진분류(Binary Classification)
이진분류 시스템
- 두가지 범주 중 하나로 분류할수 있는 예측모델을 만드는 과정
로지스틱 알고리즘
- 트레이닝 데이터의 특성과 분포의 직선 -> 직선의 양쪽으로 분류하는 방법
- Training Data -> Regression -> Binary Classification -> True/False
시그모이드 함수
- x,t -> z=Wx+b -> y=Sigmoid(z) -> True/False
이진 크로스 엔트로피
- 손실함수