데이터 사이언스 기본 review

seongyong·2021년 4월 2일
0

Review

목록 보기
1/1

학습내용

EDA

초기분석 단계로 다양한 방법으로 데이터에서 정보를 뽑아냄

  • 시각화 같은 도구를 통해서 패턴을 발견
  • 데이터의 특이성을 확인
  • 통계와 그래픽 혹은 시각적 표현을 통해서 가설을 검정하는 과정 등을 포함

Feature Engineering

도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것

Data Manipulation

데이터프레임 합치기 등

  • merge
  • concat
  • groupby
  • tidy table
  • wide table

Data Visualization

데이터에 대한 이해를 돕기 위해 그림, 도형등의 시각적 요소를 사용해서 데이터를 표현하는 과정

Hypothesis Test

1) 귀무가설 설정
2) 대립가설 설정
3) 신뢰도 설정
4) p-value 확인
5) 가설에 대한 결론

  • t-test
  • chi2 test
  • ANOVA

CI

  • 신뢰구간
  • 95% 신뢰도의 신뢰구간을 결정한다는 것은 100번 CI를 설정했을때 신뢰구간 안에 모수가 포함되는 CI가 95개가 있음을 의미

Bayesian

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

p(AB)p(A|B) -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률)

p(A)p(A) -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률

p(BA)p(B|A) -> likelihood

stats.분포. - 

rvs: Random Variates

pdf: Probability Density Function

cdf: Cumulative Distribution Function

ppf: Percent Point Function (Inverse of CDF)

stats: Return mean, variance, (Fisher’s) skew, or (Fisher’s) kurtosis

PCA

공분산 행렬의 고유벡터, 고유값을 통해 차원 축소를 실행하는 것

  • overfitting 방지

Clustering

비지도학습의 대표적인 예로, 데이터의 연관된 feature를 바탕으로 유사한 그룹을 생성

  • Point Assignment(K-means)
  • Hierarchical(Agglomerative)

0개의 댓글