수학적 개념이해 - 통계
통계학
- 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
- 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로한 분석은 불가능
- 표본(Sample) : 모집단의 일부분의 관측값들
- 모수(Parameter) : 수치로 표현되는 모집단의 특성
- 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양
자료의 종류
- 수치형(양적자료)
- 연속형(예: 몸무게, 키)
- 이산형(예: 전화 통화 수)
자료의 요약 - 그림, 표
- 연속형 자료
- Box plot
- 히스토그램(Histogram)
자료의 요약 - 수치
- 모집단의 개체의 수 : N
- 중심 경향값(대푯값)
- 평균(Mean): μ=N1(x1+...+xN)
- 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값
- 최빈값(Mode): 가장 자주 나오는 값
- 모집단의 개체의 수 : N
- 산포도(퍼진정도)
- 분산(Variance): σ2=∑i=1N(xi−μ)2
- 사분위수 범위(Inter quartile range)
- 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
- 정규분포
- 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
- 위치는 평균에 의해, 모양은 분산에 의해 결정
- 분포도
- 왜도(Skewness)
- 분포의 비대칭 정도
- Left-skewed를 Negative skewed로 표현하기도 함
- 첨도(Kurtois)
- 분포의 꼬리 부부느이 비중에 대한 측도
- Ks=0
통계량, 추정량
- 추정량의 종류(표본 관측치의 개수: n)
- 표본평균: Xˉ=n1∑i=1nxi
- 표본분산(Sample variance): s2=n−11∑i=1n(xi−μ)2
확률
- 확률실험(Random experiment): 다음과 같은 속성을 지닌 관찰이나 인위적인 실험
- 실험의 결과는 미리 알 수 없다.
- 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
- 이론적으로는 실험을 반복할 수 있다.
- 표본공간(Sample space): 모든 결과들의 모임
- 근원사건(Sample outcome): 표본 공간의 원소
- 사건(Event): 표본 공간의 부분집합. 근원사건의 집합.
- 배반사건(Mutually exclusive events): 서로 교집합이 공집합인 사건
- 확률
- 어떠한 사건이 일어날 가능성의 정도
- 근원사건이 일어날 가능성이 동일할 때의 계산
- P(A)=n(S)n(A)
- 확률의 공리
- 0≤P(A)≤1
- P(S)=1
- 어떠한 사건들(Ai,i=1,...,n)이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다
- P(⋃i=1nAi)=∑i=1nP(Ai)
- 조건부 확률
- 사건B에 대한 정보가 주어졌을 때 사건A의 교정된 확률
- B가 주어졌을 때 사건A의 조건부 확률: P(A∣B)=P(B)P(A⋂B)
- 독립
- 사건A와 B가 서로에게 아무런 영향을 미치지 않을 때,
- P(A∣B)=P(A),P(B∣A)=P(B)
- P(A⋂B)=P(A)P(B)
- 확률변수
- 각각의 근원사건들에 실수값을 대응시키는 함수
- 예) 두 쌍의 동전을 던지는 확률 실험에서, X: 동전 앞면의 개수
- X((H,H))=2
- X((H,T))=1
- X((T,H))=1
- X((T,T))=0
- 확률분포
- 확률변수에서 확률값으로의 함수, 주로 f(x)로 표기
- f(2)=P(X=2)=P((H,H))=41
- f(1)=P(X=1)=P((H,T),(T,H))=42=21
- f(0)=P(X=0)=P((T,T))=41
- 확률변수의 기대값
- 확률변수의 중심 경향값. 흔히 평균이라 칭함
- E(X)=μ=∑i=1nxif(xi)
- 확률변수의 분산
- Var(X)=E(X−μ)2=∑i=1n(xi−μ)2f(xi)
- 공분산
- Cov(X,Y)=E(X−μx)(Y−μy)=∑i=1n(xi−μx)(yi−μy)f(xi,yi)
- 두 개의 확률변수가 X,Y가 상호 어떤 관계를 가지며 변화하는가를 나타낸 측도
- X,Y가 독립이면 Cov(X,Y)=0
- 상관계수
- ρ=Var(X)Var(Y)Cov(X,Y), −1≤ρ≤1
- 공분산은 X,Y단위의 크기에 영향을 받음
- 상관계수는 공분산을 단위화한 값
머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y