Section 1 Review
Week 1 - Data Preprocess & EDA
1. EDA
-
EDA - 초기 분석 단계
- 시각화 도구를 이용한 데이터 속 패턴 발견
- 데이터가 가진 특이성 확인
- 통계와 그래픽 또는 시각화 표현을 통해서 가설 검정하는 과정
-
Pandas 로 할 수 있는 것들
2. Feature Engineering
도메인 지식과 창의성을 바탕으로, 데이터셋의 Feature들을 재조합하여 새로운 Feature 생성
-
String 데이터 다루기
-
데이터 타입 변환
-
Apply 함수 활용
3. Data Manipulation
하나의 데이터 셋을 만들기 위한 과정
4. Data Visulize
다양한 시각화 도구
- Pandas
- Matplotlib
- Seaborn
- Plotly - Interactive한 시각화
Week 2 - Statistics
1. Hypothesis Test (가설 검정)
주어진 상황에 대해서 하고자 하는 주장이 맞는지 아닌지 판정하는 과정
- 기술 통계치 vs 추리 통계치
- T-test (one-sample vs two-sample)
1) 귀무가설 설정
2) 대안가설 설정
3) 신뢰도 설정
4) P-value 확인
5) P-value를 바탕으로 가설에 대해 결론
2. Hypothesis Test + (추가적인 내용)
3. Confidence Interval
통계적 추론을 통해 예측 되는 값의 범위
- 신뢰도
신뢰도가 95% 라는 의미는 표본을 100번 뽑았을때 95번은 신뢰구간 내에 모집단의 평균이 포함된다.
- 중심극한정리
- 큰수의 법칙
4. Bayesian
사전확률을 새로운 데이터를 통해 업데이트하면서 사후확률을 구하는 방식
P(A∣B)=P(B)P(B∣A)P(A)
Weeek 3 - Linear Algebra
1. Vector / Matrix
2. Linear Algebra +
- Covariance (공분산)
- Correlation coefficient (상관계수)
3. Dimension Reduction
4. Clustering
- K-means Clustering
- Hierarchical Clustering