시리즈

머신러닝

1.데이터 전처리(결측값, 가변수화)

2024년 3월 13일

2024년 3월 30일

- 회귀 모델이 정확한 값을 예측하는 것은 어려움 오차 범위가 적을 수록, 예측 값이 실제 값에 가까울 수록 좋은 모델 예측 값과 실제 값의 차이(오차)로 모델 성능을 평가 1) MAE(Mean Absolute Error) $$\large MAE=\frac{1}{n

2024년 3월 30일

- 분류 모델은 실제 값도 0과 1, 예측 값도 0과 1이므로, 0인지 1인지 예측하는 것 실제 값을 정확히 예측한 예측 값이 많을 수록 좋은 모델 정확히 예측한 비율로 모델 성능을 평가 1) 혼동 행렬(Confusion Matrix) 2) 정확도(Accuracy)

2024년 3월 30일

선형 회귀(Linear Regression) >종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법 데이터는 다양한 형태를 가지기 때문에, 가장 최선이 되는 직선(y = ax + b)을 그리기 위해 최선의 기울

2024년 3월 30일

1. 환경 준비 2. 데이터 수집 및 이해 3. 데이터 전처리 변수 제거 결측치 처리 x, y 분리 가변수화 학습용, 평가용 데이터 분리 4. 모델 학습 분류 문제인지, 회귀 문제인지에 따라 사용할 알고리즘과 평가 방법이 달라짐 5. 모델 평가

2024년 3월 30일

Hyperparameter > 알고리즘을 사용해 모델링 할 때 모델 성능을 쵲거화하기 위해 조절할 수 있는 매개변수 KNN 알고리즘의 nneighbors, Decision Tree 알고리즘의 maxdepth 등이 있음 튜닝 하는 방법에 정답은 없음(지식과 경험 + 다

2024년 3월 30일

앙상블(Ensemble) > 여러 개의 기본 모델을 결합하여 훨씬 강력한 하나의 새로운 모델을 만들어내는 기법 보팅(Voting) > 다양한 유형의 알고리즘을 기반으로 한 여러 모델들의 예측 결과를 투표로 통해 최종 예측결과로 결정하는 방법 하드 보팅: 다수 모델이

2024년 3월 30일