데이터 사이언스 기본 review

seongyong·2021년 4월 2일

review

Review

목록 보기

1/1

학습내용

EDA

초기분석 단계로 다양한 방법으로 데이터에서 정보를 뽑아냄

시각화 같은 도구를 통해서 패턴을 발견
데이터의 특이성을 확인
통계와 그래픽 혹은 시각적 표현을 통해서 가설을 검정하는 과정 등을 포함

Feature Engineering

도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것

Data Manipulation

데이터프레임 합치기 등

merge
concat
groupby
tidy table
wide table

Data Visualization

데이터에 대한 이해를 돕기 위해 그림, 도형등의 시각적 요소를 사용해서 데이터를 표현하는 과정

Hypothesis Test

1) 귀무가설 설정
2) 대립가설 설정
3) 신뢰도 설정
4) p-value 확인
5) 가설에 대한 결론

t-test
chi2 test
ANOVA

CI

신뢰구간
95% 신뢰도의 신뢰구간을 결정한다는 것은 100번 CI를 설정했을때 신뢰구간 안에 모수가 포함되는 CI가 95개가 있음을 의미

Bayesian

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

$p(A|B)$ -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률)

$p(A)$ -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률

$p(B|A)$ -> likelihood

stats.분포. - 

rvs: Random Variates

pdf: Probability Density Function

cdf: Cumulative Distribution Function

ppf: Percent Point Function (Inverse of CDF)

stats: Return mean, variance, (Fisher’s) skew, or (Fisher’s) kurtosis

PCA

공분산 행렬의 고유벡터, 고유값을 통해 차원 축소를 실행하는 것

overfitting 방지

Clustering

비지도학습의 대표적인 예로, 데이터의 연관된 feature를 바탕으로 유사한 그룹을 생성

Point Assignment(K-means)
Hierarchical(Agglomerative)

seongyong