
07 기상09-10 OT10-12 Session & QnA13-18 assignmentimport pandas as pddf = pd.read_csv(io ='', sheet_name=0)저장 = df.to_csv('File name', mode= '')new_he

0700 기상0800 선행학습0900 warm up(Feature Engineering, Data Type)1000 Session1100 QnA1200 Lunch1300 Assignmentdef toint(x): return int(x.replace(',',''))d

0730 기상 0900 warm_up 1000 Session 1100 QnA 1200 Lunch 1300 Assignment 1600 QnA 1700 ~ Study #Concat df = pd.concat([df1,df2])#데이터셋 df1과 df2를 합침 df

#Time Line 0800 기상 0900 Warm_up 1000 Session 1100 QnA 1200 Lunch 1300 Daily Assignment 1600 QnA 1700 Study 1900 운동 #코드정리 import seaborn a

단순선형회귀 > 1. 상관계수 분석 기준모델 모델 설정 회귀계수 확인 예측 1. 상관계수 분석 > X,Y의 상관계수를 구한다. 타겟과의 상관계수가 높은 특성을 찾기 위함이다. 특성이 많지않을 때 사용한다. np.corrco

다중선형회귀 > 1. test, train data 다중선형회귀 평가지표 과적합, 과소적합 1. test, train data > 분리하는 이유 : 학습에 사용된 train data를 test에도 사용하면 안되고 학습에 사용되지 않은 데이터로 성능

One-hot encording범주형명목형 = 순서가 없는 str데이터 명목형을 원핫 인코딩을 통해서 고유값을 컬럼으로 바꿔 0,1로 나타냄주의순서형과 헷갈리기 쉽다.종류가 너무 많으면 쓰기 힘들다.상관성이 발생 -> 생각해보기순서형 특성선택은 과제에 적합한 특성을 만

train/validate/test분류와 회귀문제의 차이점로지스틱 회귀 이해 및 사용Train data = 모델을 학습시키는 데이터Validdate data = 학습된 모델을 검증하는 데이터Test data = 학습/ 검증된 모델의 성능을 평가하는 데이터 회귀문제는 보

파이프라인결정트리결정트리의 특성중요도여러 ML 모델을 같은 전처리 프로세스에 연결시킬 수 있습니다.그리드서치(grid search)를 통해 여러 하이퍼파라미터를 쉽게 연결할 수 있습니다.전처리 과정의 간단화결정트리(의사결정나무) 모델은 특성들을 기준으로 샘플을 분류해

랜덤포레스트 순서형인코딩(Ordinal encoding) 과 원핫인코딩범주형 변수의 인코딩 방법이 트리모델과 선형회귀 모델에 주는 영향 이해합니다.앙상블 방법은 한 종류의 데이터로 여러 머신러닝 학습모델(weak base learner, 기본모델)을 만들어 그 모델들의

Evaluation Metrics for Classification > 1. Confusion matrix 정밀도, 재현율 ROC curve, AUC 점수 1. Confusion matrix

교차검증하이퍼파라미터hold out 교차검증 : 훈련/ 검증/ 테스트 데이터로 나눠서 검증문제점 : 데이터가 충분하지 않을 경우 부정확한 결과를 초래할 수 있다.K-Fold 교차 검증데이터를 k개로 k-1개의 훈련데이터와 1개의 테스트데이터로 교차 검증진행사이킷런을 사

타겟 설정, 분포 확인정보의 누출(leakage)검증 지표(metrics)데이터 분석 프로세스이산형, 순서형, 범주형 타겟 특성도 회귀문제 또는 다중클래스분류 문제로도 볼 수 있습니다.회귀, 다중클래스분류 문제들도 이진분류 문제로 바꿀 수 있습니다.문제의 목적에 맞는

지도학습(supervised machine learning)모델을 학습하기 위한 훈련 데이터 생성 지도학습을 위한 데이터 엔지니어링 방법을 이해하고 올바른 특성 생성 1. 훈련데이터 생성 >* 데이터 확인 데이터프레임 간 관계 확인 훈련데이터와 테스트데이터 간의 중복

PDP(Partial dependence plot)ShapPDP는 각 특성이 타겟에 미치는 영향을 확인할 수 있는 지표이다.중요도보다 좀 더 직관적으로 타겟과의 관계를 알 수 있다.성능이 아닌 타겟에 대한 영향이다.ICE 커브 (관측치 하나하나를 표현한 선) → 평균을

터미널 & CLI가상환경깃(Git) & 깃헙(Github)터미널은 CLI의 일종이라고 생각된다.(내가 이해한 것)CLI(Command Line Interface)는 텍스트 기반의 명령과 결과로 진행된다. ↔ GUI(Graphic User Interface)$ conda