# Section 01 Review

스르륵·2021년 4월 2일
0

부트캠프 정리하기

목록 보기
6/12

지난 4주간 공부한 내용 중 정리할만한 것들을 골라보았다.

첫 주차는 pandas와 visualization으로 나에겐 무난한 주차였다. 특별히 정리할 내용은 없고, 한 달간 자주 쓰면서 중요하다고 생각한 몇 가지 method를 적어두었다. 따로 사용법은 정리하지 않겠다.

Statistic Analysis

Inferential Statistics을 통해 표본으로부터 모집단을 추정하는 것이 목적이다. 현실에서 우리는 모집단에 대한 정보는 거의 알 수 없고 표본을 대상으로 분석을 할 것이다. 표본 데이터를 보고 가설을 세우고 가설이 맞는지 확인하여 모집단을 추정한다. 이를 위한 가설검정에는 독립성, 정규성, 등분산성 3가지를 만족하는 Parametric method와 조건을 만족하지 않는 Non-Parametric Method가 있다.

Parametric method

  • 두 집단의 평균을 비교하는 t-test와 분산을 이용하는 ANOVA가 대표적인 parametric method
  • t-test는 두 집단의 평균이 유의미한 차이를 보이는지 비교하는 것 까지 유효
    • 한 개의 집단이 특정 수와 같은지
    • 두 개의 집단이 서로 유의미하게 다른지
  • ANOVA는 둘 이상의 그룹에 평균이 차이가 있는지 검정할 수 있다. 다만 ANOVA를 통해 어떤 그룹이 검정을 통과했는지 알 수 없기 때문에 Post-Hoc test를 해야한다
    • 여러 그룹들이 하나의 분포로부터 (하나의 모집단) 나온 것이다 --> H0
    • 분산을 통해 검정한다
    • post-hoc test는 one-way ANOVA에서 어떤 그룹간의 차이가 있는지 확인하기 위한 과정

Non-Parametric method

  • 모집단이 특정 확률 분포를 따를것이라고 전제하지 않는 방식. Chi-Square test가 대표적
  • categorical data, 극단적 outlier 등을 처리할 때 유용
  • Chi-Square
    • One-sample : 주어진 데이터가 예상되는 분포와 동일한지에 대한 가설검정
    • Two-sample : 두 변수 간의 연관성을 검정

Central Limit Theorem (중심 극한 정리)

  • 샘플의 수가 많아질 수록 그 샘플들의 평균이 정규분포에 가까워진다. (표본평균의 분포가 정규분포를 이루게 된다)

  • 표본평균분포! --> Sampling distribution of sample mean

  • 모집단의 분포와 관계없이 많은 표본을 뽑으면 그 표본의 평균이 정규분포를 따르게 된다.

  • 표본평균의 분포와 모집단 간의 관계를 증명하는 중심극한정리를 통해 표본의 통계량을 통해 모수를 추정할 수 있는 근거가 된다


Linear Algebra

Covariance & Correlation Coefficient

공분산과 상관계수는 두 변수간의 연관성을 나타낸다. 자료가 평균으로부터 각각 얼마나 떨어져있는지 수치화한 것.

공분산은 그 값이 클수록 강한 선형관계가 있다고 하기 힘들다. 변수의 scale이 클수록 공분산의 값도 편차가 매우 크기 때문이다. 따라서 공분산을 표준편차로 나누어 계산한 상관계수를 통해 보완한다. 상관계수가 0이면 두 변수 사이의 관계가 없음, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가진다.

Cov(X,Y)=1ni=1n(Xixˉ)(Yyˉ)=E[(Xμx)(Yμy)]Cov(X, Y) = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{x})(Y - \bar{y}) = E[(X-\mu_x)(Y-\mu_y)]
Corr(X,y)=Cov(X,Y)σXσYCorr(X, y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}

Eigen Value / Vector

고유값과 고유벡터의 의미

Linear Projection

사영(projection)은 벡터의 내적과 깊은 관계를 가지고 있다. 위 그림의 벡터 b\vec{b}에서 a\vec{a}에 직교하는 벡터 x\vec{x}를 만들면 벡터 합의 성질을 통해 높이를 구할 수 있다. 그리고 직교하는 두 벡터의 내적은 0이므로 스칼라 pp를 구할 수 있다. 이때 x\vec{x}b\vec{b}a\vec{a} 사이의 오차라고도 할 수 있다. 사영을 통해 벡터 a\vec{a}를 통해 나타낸 최선의 벡터 b\vec{b}를 만들 수 있는 것이다.

  • mean squared error가 이것과 관련이 있나?

Linear Transformation

선형 변환에 대해...

영상으로 공부

  • 선형 변환은 입출력 관계의 메커니즘으로 마치 함수와 같은 것이다. 입력이 어떻게 출력벡터로 변화하는지 움직임을 살펴보는 것

  • 기저 벡터의 변화가 transformation이라고 할 수 있는가?

    [abcd][xy]=[ax+bycx+dy]\begin{bmatrix} a & b\\ c & d \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} ax + by\\ cx + dy \end{bmatrix}

    벡터 [ac]\begin{bmatrix} a \\ c \end{bmatrix}xx만큼, 벡터 [bd]\begin{bmatrix} b \\ d \end{bmatrix}yy만큼 scaling 됐다고 할 수 있다.

    --> activation function 쓰는 이유?

PCA

분석을 위한 feature의 갯수가 너무 많아지면 오히려 효율이 떨어지는 현상을 발견할 수 있다 (차원의 저주). 그리고 3차원 이상의 데이터는 시각화 하는데 매우 어렵고, 3차원 마저 사람이 직관적으로 받아들이기 힘들다. 그리고 샘플 수에 비해 feature가 너무 많으면 과적합 문제도 발생한다.

Dimension Reduction

  • PCA(Principal Component Analysis)는 고차원 데이터를 효과적으로 분석하기 위해 차원을 축소하는 기법이다. 고차원 데이터의 분산을 최대한 유지하는 벡터를찾고 해당 벡터에 대해 데이터를 projection하는 것.
  • 만약 데이터를 2차원으로 축소한다고 하면, 가장 정보 손실이 적은 2차원으로 만드는 것이 필요 --> Scree plot 등으로 확인할 수 있다.
  • 어떤 feature가 함께 어떤 PC를 이루는지는 알 수있나?

K-means clustering

  • clustering feature를 바탕으로 유사한 군집을 형성하는 것
  • 주어진 데이터가 얼마나, 어떻게 유사한지 알아보기 좋고 모델링 보다는 EDA에 많이 활용
  • K-means clustering은 K개의 중심점을 선정하고 근접한 데이터를 하나의 그룹으로 형성

K-means Clustering을 통해 세 개의 그룹으로 구분된 데이터

profile
기록하는 블로그

0개의 댓글