configParser 예제
argparse 로 명령행 인자 파싱하기
인트라넷 등 사용시 인증 관련하여 발생하는 문제
requirements.txt 로 의존성 및 버전을 관리
* multipart/form-data 형식의 POST 요청 보내기
pyenv, pipenv 로 가상환경 사용 및 패키지 의존성 관리하기
perceptron 선형 분류기 schikit-learn 구현 예제
선형 분류기 logistic regression (로지스틱 회귀) 와 sigmoid 함수 개요 및 scikit learn 기반 예제
SVM 개요, soft margin SVM, scikit-learn trainning
정규화(normalization),표준화(standardization). min-max scaling, standard scaling, robust scaling, max-abs scaling
regularization (규제): 개별 가중치 값을 제한하여 overfitting 방지 L2, L1 regularization : cost function 에 penalty term (패널티 항) 을 추가, 가중치 값을 작게 만드는 효과
모델 복잡도를 줄이고 overfitting 을 방지하는 방법 중 하나 feature selection : original feature 에서 일부를 선택. feature extraction: original feature 에서 새로운 feature 생성
Learning Curve (학습 곡선) * 편향(bias)이 높으면 (=underfitting) 훈련 정확도, 교차 검증 정확도가 모두 낮게 나타남 분산(variance)이 높으면 (=overfitting) 훈련 정확도, 교차 검증 정확도의 차이가 크게 나타남
Greedy search : 하이퍼파라미터 (Hyper parameter) 최적화 기법. 하이퍼파라미터 모든 조합에 대해 모델 성능 평가. Nested cross-validation : k-fold cross validation 을 중첩. ML 모델 성능 비교
confusion_matrix : True Positive, True Negative, False Positive, False Negative 행렬
데이터셋의 클래스 비율이 불균형할 경우, 소수 클래스의 샘플을 늘리거나, 다수 클래스 샘플을 줄이거나, 인공 훈련 데이터 생성
GridSearchCV 로 하이퍼파라미터 최적값 찾기, LDA 로 문서 주제(토픽)를 추출하기
1개 이상의 feature 와 연속적인 타깃 변수 사이의 관계를 모델링, 연속적인 output 값을 예측
수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계를 찾아내는 프로세스
선형 회귀 직선의 모델 파라미터를 추정하는 방법. training sample 까지의 수직 거리 (=offset) 의 제곱합을 최소화. 선형 최소 제곱법 (linear least squares) 라고도 한다.
모델 배포와 예측에 대한 통념, 기법 등
TDD 의 규칙, BDD 개요, Randomness 문제, ML 모델의 정량적 평가 지표