EDA
.replace(), thousands=',' Mean imputation Apply vs Applymap vs map
concat, merge, join, reshape, Groupby
astype, sort_values, value_count, groupby
베이지안 이론, 총 확률의 법칙, 조건부 확률
결측치 제거,시계열, 조건에 따라 열생성, 열기준 합, 파일불러올때 인자, if문-pvalue 해석, plt.figure, ndarray
Vector transformation Dimension Reduction, PCA
Scree plot, Machine Learning(지도, 비지도), 클러스터링
orthogonality det(x)=0, elbow Method, .to_numpy(), np.flatten, np.stack
f문자열 포매팅,pd.Timedelta 특정조건 추출, 몇개만 정규화
단순선형회귀분석, 기준모델, 예측모델,사이킥런-분리
다중선형회귀모델, 평가지표, 과적합&과소적합
원핫인코딩 feature selection Ridge Regression, Pandas profiling
로지스틱 회귀모델, 분류 기준모델, 특정 특성만 원핫인코딩, 최적화
pair plot, Strip Plot 보기 편하게 회귀계수 numeric column만 있는 데이터 프레임 출력하기 numpy.argmax
파이프라인, 결정트리, unique/nunique
랜덤포레스트(Random Forests) 순서형(ordinal) 인코딩 GridSearchCV() Count Encoding
Confusion matrix 분류 평가지표 임계값 ROC 곡선과 AUC 점수 대각 행렬
교차검증, TargetEncoder, 하이퍼파라미터 튜닝(검증곡선, Randomized Search CV), 랜덤함수
결측치 있는 특성 확인, re sub, 논리합, 정보의 누수, 불균형 타겟(class-weight, 로그변환)
데이터 랭글링 isdisjoint value_counts 데이터프레임
특성중요도(순열중요도),Boosting
model-agnostic , PDP , SHAP
시계열 데이터 train/test, Day 부분 지우기, count plot, pie plot, Cardinality 줄이기, scale_pos_weight, 연도, 월 추출
- git bash - 가상환경 - git
SQL , 관계형 데이터베이스(스키마)
트랜잭션(ACID, Commit, Rollback) SQL MORE N312~ 313
1.python dbapi (PEP 249, 데이터베이스 연결(sqlite) 커서 메소드, conn.commit) 2.클라우드 데이터베이스(elephantSQL)
파이썬 기본문법 - def, 표현식 - 에러,주석,반복문 - 논리연산자, 중첩 파이썬 기본 자료구조 -리스트,튜플,딕셔너리 디버깅 - is, isinstance
웹 스크레이핑 HTML & CSS DOM
API HTTP API REST API - openwether API -트위터 API
NoSQL, 몽고디비
이론을 PPT로 요약해봄