첫 주차는 pandas와 visualization으로 나에겐 무난한 주차였다. 특별히 정리할 내용은 없고, 한 달간 자주 쓰면서 중요하다고 생각한 몇 가지 method를 적어두었다. 따로 사용법은 정리하지 않겠다.
Statistic Analysis
Inferential Statistics을 통해 표본으로부터 모집단을 추정하는 것이 목적이다. 현실에서 우리는 모집단에 대한 정보는 거의 알 수 없고 표본을 대상으로 분석을 할 것이다. 표본 데이터를 보고 가설을 세우고 가설이 맞는지 확인하여 모집단을 추정한다. 이를 위한 가설검정에는 독립성, 정규성, 등분산성 3가지를 만족하는 Parametric method와 조건을 만족하지 않는 Non-Parametric Method가 있다.
Parametric method
두 집단의 평균을 비교하는 t-test와 분산을 이용하는 ANOVA가 대표적인 parametric method
t-test는 두 집단의 평균이 유의미한 차이를 보이는지 비교하는 것 까지 유효
한 개의 집단이 특정 수와 같은지
두 개의 집단이 서로 유의미하게 다른지
ANOVA는 둘 이상의 그룹에 평균이 차이가 있는지 검정할 수 있다. 다만 ANOVA를 통해 어떤 그룹이 검정을 통과했는지 알 수 없기 때문에 Post-Hoc test를 해야한다
여러 그룹들이 하나의 분포로부터 (하나의 모집단) 나온 것이다 --> H0
분산을 통해 검정한다
post-hoc test는 one-way ANOVA에서 어떤 그룹간의 차이가 있는지 확인하기 위한 과정
Non-Parametric method
모집단이 특정 확률 분포를 따를것이라고 전제하지 않는 방식. Chi-Square test가 대표적
categorical data, 극단적 outlier 등을 처리할 때 유용
Chi-Square
One-sample : 주어진 데이터가 예상되는 분포와 동일한지에 대한 가설검정
Two-sample : 두 변수 간의 연관성을 검정
Central Limit Theorem (중심 극한 정리)
샘플의 수가 많아질 수록 그 샘플들의 평균이 정규분포에 가까워진다. (표본평균의 분포가 정규분포를 이루게 된다)
표본평균분포! --> Sampling distribution of sample mean
모집단의 분포와 관계없이 많은 표본을 뽑으면 그 표본의 평균이 정규분포를 따르게 된다.
표본평균의 분포와 모집단 간의 관계를 증명하는 중심극한정리를 통해 표본의 통계량을 통해 모수를 추정할 수 있는 근거가 된다
Linear Algebra
Covariance & Correlation Coefficient
공분산과 상관계수는 두 변수간의 연관성을 나타낸다. 자료가 평균으로부터 각각 얼마나 떨어져있는지 수치화한 것.
공분산은 그 값이 클수록 강한 선형관계가 있다고 하기 힘들다. 변수의 scale이 클수록 공분산의 값도 편차가 매우 크기 때문이다. 따라서 공분산을 표준편차로 나누어 계산한 상관계수를 통해 보완한다. 상관계수가 0이면 두 변수 사이의 관계가 없음, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가진다.
사영(projection)은 벡터의 내적과 깊은 관계를 가지고 있다. 위 그림의 벡터 b에서 a에 직교하는 벡터 x를 만들면 벡터 합의 성질을 통해 높이를 구할 수 있다. 그리고 직교하는 두 벡터의 내적은 0이므로 스칼라 p를 구할 수 있다. 이때 x는 b와 a 사이의 오차라고도 할 수 있다. 사영을 통해 벡터 a를 통해 나타낸 최선의 벡터 b를 만들 수 있는 것이다.
선형 변환은 입출력 관계의 메커니즘으로 마치 함수와 같은 것이다. 입력이 어떻게 출력벡터로 변화하는지 움직임을 살펴보는 것
기저 벡터의 변화가 transformation이라고 할 수 있는가?
[acbd][xy]=[ax+bycx+dy]
벡터 [ac]는 x만큼, 벡터 [bd]는 y만큼 scaling 됐다고 할 수 있다.
--> activation function 쓰는 이유?
PCA
분석을 위한 feature의 갯수가 너무 많아지면 오히려 효율이 떨어지는 현상을 발견할 수 있다 (차원의 저주). 그리고 3차원 이상의 데이터는 시각화 하는데 매우 어렵고, 3차원 마저 사람이 직관적으로 받아들이기 힘들다. 그리고 샘플 수에 비해 feature가 너무 많으면 과적합 문제도 발생한다.
Dimension Reduction
PCA(Principal Component Analysis)는 고차원 데이터를 효과적으로 분석하기 위해 차원을 축소하는 기법이다. 고차원 데이터의 분산을 최대한 유지하는 벡터를찾고 해당 벡터에 대해 데이터를 projection하는 것.
만약 데이터를 2차원으로 축소한다고 하면, 가장 정보 손실이 적은 2차원으로 만드는 것이 필요 --> Scree plot 등으로 확인할 수 있다.
어떤 feature가 함께 어떤 PC를 이루는지는 알 수있나?
K-means clustering
clustering feature를 바탕으로 유사한 군집을 형성하는 것
주어진 데이터가 얼마나, 어떻게 유사한지 알아보기 좋고 모델링 보다는 EDA에 많이 활용
K-means clustering은 K개의 중심점을 선정하고 근접한 데이터를 하나의 그룹으로 형성