[머신러닝 인강] 6. 회귀분석(1)

Uno·2021년 5월 1일
0

수학적 개념이해 - 통계

통계학

  • 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
    • 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로한 분석은 불가능
  • 표본(Sample) : 모집단의 일부분의 관측값들
  • 모수(Parameter) : 수치로 표현되는 모집단의 특성
  • 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양

자료의 종류

  • 수치형(양적자료)
    • 연속형(예: 몸무게, 키)
    • 이산형(예: 전화 통화 수)
  • 범주형(질적자료)
    • 순위형(예: 학점)
    • 명목형(예: 성별)

자료의 요약 - 그림, 표

  • 범주형 자료
    • 도수 분포표
    • 막대 / 원형 그래프
  • 연속형 자료
    • Box plot
    • 히스토그램(Histogram)

자료의 요약 - 수치

  • 모집단의 개체의 수 : NN
  • 중심 경향값(대푯값)
    • 평균(Mean): μ=1N(x1+...+xN)\mu = {1 \over N}(x_1+...+x_N)
    • 중앙값(Median): 크기순으로 정렬시켜 중앙에 위치한 값
    • 최빈값(Mode): 가장 자주 나오는 값
  • 모집단의 개체의 수 : NN
  • 산포도(퍼진정도)
    • 분산(Variance): σ2=i=1N(xiμ)2\sigma^2 = \sum_{i=1}^N(x_i-\mu)^2
    • 사분위수 범위(Inter quartile range)
      • 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
  • 정규분포
    • 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
    • 위치는 평균에 의해, 모양은 분산에 의해 결정
  • 분포도
    • 왜도(Skewness)
      • 분포의 비대칭 정도
      • Left-skewed를 Negative skewed로 표현하기도 함
  • 첨도(Kurtois)
    • 분포의 꼬리 부부느이 비중에 대한 측도
    • Ks=0K_s = 0
      • 뾰족한 정도가 정규분포와 동일

통계량, 추정량

  • 추정량의 종류(표본 관측치의 개수: nn)
    • 표본평균: Xˉ=1ni=1nxi\bar{X} = {1\over n}\sum_{i=1}^nx_i
    • 표본분산(Sample variance): s2=1n1i=1n(xiμ)2s^2 = {1\over n-1}\sum_{i=1}^n (x_i-\mu)^2

확률

  • 확률실험(Random experiment): 다음과 같은 속성을 지닌 관찰이나 인위적인 실험
    • 실험의 결과는 미리 알 수 없다.
    • 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
    • 이론적으로는 실험을 반복할 수 있다.
  • 표본공간(Sample space): 모든 결과들의 모임
  • 근원사건(Sample outcome): 표본 공간의 원소
  • 사건(Event): 표본 공간의 부분집합. 근원사건의 집합.
    • 배반사건(Mutually exclusive events): 서로 교집합이 공집합인 사건
  • 확률
    • 어떠한 사건이 일어날 가능성의 정도
      • P(A)P(A)로 표기
    • 근원사건이 일어날 가능성이 동일할 때의 계산
      • P(A)=n(A)n(S)P(A) = {n(A) \over n(S)}
    • 확률의 공리
      • 0P(A)10 \le P(A) \le 1
      • P(S)=1P(S) =1
      • 어떠한 사건들(Ai,i=1,...,n)(A_i,i=1,...,n)이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다
        • P(i=1nAi)=i=1nP(Ai)P(\bigcup_{i=1}^n A_i) = \sum_{i=1}^nP(A_i)
  • 조건부 확률
    • 사건B에 대한 정보가 주어졌을 때 사건A의 교정된 확률
    • B가 주어졌을 때 사건A의 조건부 확률: P(AB)=P(AB)P(B)P(A|B) = {P(A \bigcap B) \over P(B)}
  • 독립
    • 사건A와 B가 서로에게 아무런 영향을 미치지 않을 때,
    • P(AB)=P(A),P(BA)=P(B)P(A|B) = P(A), P(B|A) = P(B)
      • P(AB)=P(A)P(B)P(A \bigcap B) = P(A)P(B)
  • 확률변수
    • 각각의 근원사건들에 실수값을 대응시키는 함수
    • 예) 두 쌍의 동전을 던지는 확률 실험에서, XX: 동전 앞면의 개수
    • X((H,H))=2X((H,H)) = 2
    • X((H,T))=1X((H,T)) = 1
    • X((T,H))=1X((T,H)) = 1
    • X((T,T))=0X((T,T)) = 0
  • 확률분포
    • 확률변수에서 확률값으로의 함수, 주로 f(x)f(x)로 표기
    • f(2)=P(X=2)=P((H,H))=14f(2) = P(X=2) = P({(H,H)}) = {1 \over 4}
    • f(1)=P(X=1)=P((H,T),(T,H))=24=12f(1) = P(X=1) = P({(H,T),(T,H)}) = {2 \over 4} = {1 \over 2}
    • f(0)=P(X=0)=P((T,T))=14f(0) = P(X=0) = P({(T,T)}) = {1 \over 4}
  • 확률변수의 기대값
    • 확률변수의 중심 경향값. 흔히 평균이라 칭함
    • E(X)=μ=i=1nxif(xi)E(X) = \mu = \sum_{i=1}^nx_if(x_i)
  • 확률변수의 분산
    • Var(X)=E(Xμ)2=i=1n(xiμ)2f(xi)Var(X) = E(X-\mu)^2 = \sum_{i=1}^n(x_i-\mu)^2f(x_i)
  • 공분산
    • Cov(X,Y)=E(Xμx)(Yμy)=i=1n(xiμx)(yiμy)f(xi,yi)Cov(X,Y) = E(X-\mu_x)(Y-\mu_y) = \sum_{i=1}^n(x_i-\mu_x)(y_i-\mu_y)f(x_i,y_i)
    • 두 개의 확률변수가 X,YX, Y가 상호 어떤 관계를 가지며 변화하는가를 나타낸 측도
    • X,YX,Y가 독립이면 Cov(X,Y)=0Cov(X,Y) = 0
  • 상관계수
    • ρ=Cov(X,Y)Var(X)Var(Y)\rho = {Cov(X,Y) \over \sqrt{Var(X)Var(Y)}}, 1ρ1-1 \le \rho \le 1
    • 공분산은 X,YX,Y단위의 크기에 영향을 받음
    • 상관계수는 공분산을 단위화한 값

머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y

0개의 댓글