AI 부트캠프 2기 - Day 21~22

Jeongwoo Lee·2021년 4월 4일

Codestates AI Bootcamp

목록 보기
17/19

Section 1 Review

Week 1 - Data Preprocess & EDA

1. EDA

  • EDA - 초기 분석 단계

    • 시각화 도구를 이용한 데이터 속 패턴 발견
    • 데이터가 가진 특이성 확인
    • 통계와 그래픽 또는 시각화 표현을 통해서 가설 검정하는 과정
  • Pandas 로 할 수 있는 것들

    • 결측치 처리
    • Data Frame
    • 시각화

2. Feature Engineering

도메인 지식과 창의성을 바탕으로, 데이터셋의 Feature들을 재조합하여 새로운 Feature 생성

  • String 데이터 다루기

  • 데이터 타입 변환

  • Apply 함수 활용

3. Data Manipulation

하나의 데이터 셋을 만들기 위한 과정

  • Merge / Concat

  • Groupby

  • Conditioning

  • Tidy (melt 함수) <-> Wide (Pivot_table 함수)

4. Data Visulize

다양한 시각화 도구

  • Pandas
  • Matplotlib
  • Seaborn
  • Plotly - Interactive한 시각화

Week 2 - Statistics

1. Hypothesis Test (가설 검정)

주어진 상황에 대해서 하고자 하는 주장이 맞는지 아닌지 판정하는 과정

  • 기술 통계치 vs 추리 통계치
  • T-test (one-sample vs two-sample)
    1) 귀무가설 설정
    2) 대안가설 설정
    3) 신뢰도 설정
    4) P-value 확인
    5) P-value를 바탕으로 가설에 대해 결론

2. Hypothesis Test + (추가적인 내용)

  • T-test 조건

    • 독립성
    • 정규성
    • 등분산성
  • Non parametric methods (비모수적 방법)

    • Categorical 데이터인 경우
    • 극단전 Outlier가 존재하는 경우
    • Chi2 test
  • 여러 그룹 비교 - ANOVA

3. Confidence Interval

통계적 추론을 통해 예측 되는 값의 범위

  • 신뢰도
    신뢰도가 95% 라는 의미는 표본을 100번 뽑았을때 95번은 신뢰구간 내에 모집단의 평균이 포함된다.
  • 중심극한정리
  • 큰수의 법칙

4. Bayesian

사전확률을 새로운 데이터를 통해 업데이트하면서 사후확률을 구하는 방식

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

  • 조건부 확률

Weeek 3 - Linear Algebra

1. Vector / Matrix

  • Numpy

2. Linear Algebra +

  • Covariance (공분산)
  • Correlation coefficient (상관계수)
    • Pearson
    • Spearman

3. Dimension Reduction

  • PCA

4. Clustering

  • K-means Clustering
  • Hierarchical Clustering
profile
열심히 하자

0개의 댓글