7주차 복습은 아래 키워드를 바탕으로 진행 고고~
확률의 성질
변수, 확률변수, 확률 분포, 확률 함수의 정의
통계적 분석은 모수 추정의 과정
기댓값과 분산의 성질
독립의 정의(공분산), 결합확률분포
이산 확률분포: Bernoulli, Binomial, Poisson
연속 확률분포: Uniform, Normal(Gaussian), Standard normal(Z-score)
Unbiased estimate(표본 분산)
중심극한정리
Pandas Dataframe을 이용한 기술통계값
통계적 추정의 정의
점 추정(MLE)
구간 추정(t분포: 모평균 구간 추정, 카이 제곱 분포: 모분산 구간 추정)
가설검정의 정의 및 오류(type 1 error, 유의수준)
모평균 차에 대한 가설 검정(Z-score, t-score), 모분산 비에 대한 가설검정(F분포)
ANOVA(SSB, SSE, SST, F분포)
Matplotlib label, tick, legend, marker, color등 기본 문법
subplots, axes 활용
plt.scatter, plt.bar, plt.hist, plt.boxplot, plt.violinplot
Seaborn relplot: 2개 이상의 변수 간의 관계
scatter plot, line plot
Seaborn displot: 1개 이상의 변수 값의 분포
hist plot, kde, heatmap, contour plot
Seaborn catplot: 범주형 데이터의 분포
strip plot/swarm plot, box plot/violin plot, bar plot/point plot
Regression / Classification task
데이터 모델링에서 MLE, MAP의 의미
Linear regression의 cost function, Ordinary Least Squares, Gradient descent
Overfitting, regularization(Ridge, Lasso)
Logistic regression, SVM
Random forest, decision tree
Naive bayes, bayes theorem
Regression evaluation: MSE, MAE, R-square
Classification evaluation: Precision/recall(False positive란?), F1 score⭐
Feature analysis: .coef, .featureimportances, pearsonr, spearmanr
책 추천 : Pattern recognition and machine learning(Bishop)
근데 이거 엄청 어렵다고한다…