# Section 01 Review

스르륵·2021년 4월 2일

부트캠프 정리하기

목록 보기

6/12

Section01_tree

지난 4주간 공부한 내용 중 정리할만한 것들을 골라보았다.

첫 주차는 pandas와 visualization으로 나에겐 무난한 주차였다. 특별히 정리할 내용은 없고, 한 달간 자주 쓰면서 중요하다고 생각한 몇 가지 method를 적어두었다. 따로 사용법은 정리하지 않겠다.

Statistic Analysis

Inferential Statistics을 통해 표본으로부터 모집단을 추정하는 것이 목적이다. 현실에서 우리는 모집단에 대한 정보는 거의 알 수 없고 표본을 대상으로 분석을 할 것이다. 표본 데이터를 보고 가설을 세우고 가설이 맞는지 확인하여 모집단을 추정한다. 이를 위한 가설검정에는 독립성, 정규성, 등분산성 3가지를 만족하는 Parametric method와 조건을 만족하지 않는 Non-Parametric Method가 있다.

Parametric method

두 집단의 평균을 비교하는 t-test와 분산을 이용하는 ANOVA가 대표적인 parametric method
t-test는 두 집단의 평균이 유의미한 차이를 보이는지 비교하는 것 까지 유효
- 한 개의 집단이 특정 수와 같은지
- 두 개의 집단이 서로 유의미하게 다른지
ANOVA는 둘 이상의 그룹에 평균이 차이가 있는지 검정할 수 있다. 다만 ANOVA를 통해 어떤 그룹이 검정을 통과했는지 알 수 없기 때문에 Post-Hoc test를 해야한다
- 여러 그룹들이 하나의 분포로부터 (하나의 모집단) 나온 것이다 --> H0
- 분산을 통해 검정한다
- post-hoc test는 one-way ANOVA에서 어떤 그룹간의 차이가 있는지 확인하기 위한 과정

Non-Parametric method

모집단이 특정 확률 분포를 따를것이라고 전제하지 않는 방식. Chi-Square test가 대표적
categorical data, 극단적 outlier 등을 처리할 때 유용
Chi-Square
- One-sample : 주어진 데이터가 예상되는 분포와 동일한지에 대한 가설검정
- Two-sample : 두 변수 간의 연관성을 검정

Central Limit Theorem (중심 극한 정리)

샘플의 수가 많아질 수록 그 샘플들의 평균이 정규분포에 가까워진다. (표본평균의 분포가 정규분포를 이루게 된다)
표본평균분포! --> Sampling distribution of sample mean
모집단의 분포와 관계없이 많은 표본을 뽑으면 그 표본의 평균이 정규분포를 따르게 된다.
표본평균의 분포와 모집단 간의 관계를 증명하는 중심극한정리를 통해 표본의 통계량을 통해 모수를 추정할 수 있는 근거가 된다

Linear Algebra

Covariance & Correlation Coefficient

공분산과 상관계수는 두 변수간의 연관성을 나타낸다. 자료가 평균으로부터 각각 얼마나 떨어져있는지 수치화한 것.

공분산은 그 값이 클수록 강한 선형관계가 있다고 하기 힘들다. 변수의 scale이 클수록 공분산의 값도 편차가 매우 크기 때문이다. 따라서 공분산을 표준편차로 나누어 계산한 상관계수를 통해 보완한다. 상관계수가 0이면 두 변수 사이의 관계가 없음, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가진다.

Cov(X, Y) = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{x})(Y - \bar{y}) = E[(X-\mu_x)(Y-\mu_y)]

Corr(X, y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}

Eigen Value / Vector

고유값과 고유벡터의 의미

Linear Projection

사영(projection)은 벡터의 내적과 깊은 관계를 가지고 있다. 위 그림의 벡터 $\vec{b}$ 에서 $\vec{a}$ 에 직교하는 벡터 $\vec{x}$ 를 만들면 벡터 합의 성질을 통해 높이를 구할 수 있다. 그리고 직교하는 두 벡터의 내적은 0이므로 스칼라 $p$ 를 구할 수 있다. 이때 $\vec{x}$ 는 $\vec{b}$ 와 $\vec{a}$ 사이의 오차라고도 할 수 있다. 사영을 통해 벡터 $\vec{a}$ 를 통해 나타낸 최선의 벡터 $\vec{b}$ 를 만들 수 있는 것이다.

mean squared error가 이것과 관련이 있나?

Linear Transformation

선형 변환에 대해...

영상으로 공부

선형 변환은 입출력 관계의 메커니즘으로 마치 함수와 같은 것이다. 입력이 어떻게 출력벡터로 변화하는지 움직임을 살펴보는 것
기저 벡터의 변화가 transformation이라고 할 수 있는가?
$\begin{bmatrix} a & b\\ c & d \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} ax + by\\ cx + dy \end{bmatrix}$
벡터 $\begin{bmatrix} a \\ c \end{bmatrix}$ 는 $x$ 만큼, 벡터 $\begin{bmatrix} b \\ d \end{bmatrix}$ 는 $y$ 만큼 scaling 됐다고 할 수 있다.

--> activation function 쓰는 이유?

PCA

분석을 위한 feature의 갯수가 너무 많아지면 오히려 효율이 떨어지는 현상을 발견할 수 있다 (차원의 저주). 그리고 3차원 이상의 데이터는 시각화 하는데 매우 어렵고, 3차원 마저 사람이 직관적으로 받아들이기 힘들다. 그리고 샘플 수에 비해 feature가 너무 많으면 과적합 문제도 발생한다.

Dimension Reduction

PCA(Principal Component Analysis)는 고차원 데이터를 효과적으로 분석하기 위해 차원을 축소하는 기법이다. 고차원 데이터의 분산을 최대한 유지하는 벡터를찾고 해당 벡터에 대해 데이터를 projection하는 것.
만약 데이터를 2차원으로 축소한다고 하면, 가장 정보 손실이 적은 2차원으로 만드는 것이 필요 --> Scree plot 등으로 확인할 수 있다.
어떤 feature가 함께 어떤 PC를 이루는지는 알 수있나?