전처리의 과정은 많지만 배운 내용에 대해서 작성해본다.1) 불필요한 변수 제거 2) 결측치 처리 3) 가변수화1) target과 연관이 없거나, 2) 결측치가 많아 채울 방법이 마땅치 않은경우, 3) name과 같이 unique한 값인 경우에 변수를 제거해준다.
지도 학습 : 정답을 주고 규칙성인 데이터의 패턴을 배우게 하는 학습 방법비지도 학습 : 정답이 없는 데이터 만으로 배우게 하는 학습 방법강화 학습 : 선택한 결과에 대해 보상을 받아 행동을 개선하게 하는 학습 방법분류 문제 : 분류된 데이터를 학습하여 규칙을 기반으로
회귀 모델 성능 평가예측 값과 실제 값의 차이(오차) : SSE가 적어야 한다.예측 값과 실제 값의 평균 : SSR이 커야 한다.예측 값이 실제 값에 가까울수록 좋은 모델이다.분류 모델 성능 평가accuray, recall, precision이 커야 한다.예측 값이 실
1) 단순 회귀 : y = ax+b의 형태의 회귀선을 만드는 거다.2) 다중 회귀 : 변수의 개수에 따라서, y = a1x1 + a2x2 + ...+ a_n x_n의 회귀선이 생성된다.9) 변수선택변수를 적절하게 선택해야 과대적합이 발생하지 않는다.변수들의 가중치가 동
1) 분류 유형뿐만 아니라 회귀 유형에도 사용된다.분류 -> 가장 많이 포함된 유형으로 분류회귀 -> K개 값의 평균을 계산하여 값을 예측2) K값의 중요성K가 train 갯수라면, 평균값이 나온다. 즉, k의 수가 증가하면 모델은 단순해진다. 그래서 적절한 수의 k
1) 분류와 회귀 둘 다 사용 가능하다.2) Root Node : 시작 노드 // Terminal Node : 끝 마디(=Leaf Node) // Depth : 깊이 // 불순도 : 지니 불순도3) 분류에서는 불순도를 측정하고 // 회귀에서는 MSE를 측정한다.4) 가
시그모이드 함수라고도 불름0과 1범위의 확률 값을 얻는다.기본적으로 0.5를 임계값으로 하여 이보다 크면 1, 아니면 0으로 분류한다.분류 유형에서만 사용한다.p = 1/(1+e^(-f(x))으로 표현한다.분류 유형의 문제들의 풀이 순서와 동일하다.차이점으로는 확률의
이전 단계까지는 데이터를 1) x와 y로 분리하고 2) 훈련용(70%), 테스트용(30%)로 분할했다.테스트를 하기 전에, 사전 테스트를 함으로써, 더 나은 알고리즘을 체택하고, 정확도를 향상시키기 위해 k분할교차검증을 돌려준다.훈련용 데이터를 cv = 10이면 10등
1) KNN 알고리즘의 경우, n_neighbors 값의 설정에 따라 모델의 성능이 달라진다.2) Decision tree/Random Forest/XGBoost/LGB의 경우, max_depth 값의 설정에 따라 모델의 성능이 달라진다.3) cross_var_scor
1) 앙상블은 여러 개의 모델을 결합하여 훨씬 강력한 모델을 생성하는 기법이다.2) 앙상블은 1. 보팅 2. 배깅 3. 부스팅 4. 스태킹 방법이 있다.3) 보팅(voting)은 하나의 데이터셋에 여러개의 알고리즘을 사용하는 기법이다.하드 보팅은 다수의 모델이 예측한
1. 클래스 불균형 실제 작업에서는 target 데이터가 불균형있게 나타나 있는 경우가 많다. ex) 공장 장비 고장을 예측하고 싶은 경우, 당연히 정상작동의 경우 980건 비정상작동의 경우 15건 이렇게 불균형인 경우. 불균형인 상태에서 y_pred를 구하고