심화 프로젝트_0303

3eo·2026년 3월 3일

불량 예측에서 결과에 중요한 영향을 미치는 불량 데이터가 소수 클래스이기 때문에 정확성을 유지하는 것이 중요

불량품 컬럼에서 0과 1이 아닌 2 이상의 숫자가 들어있는 경우
→ 무엇을 의미하고 어떻게 처리해야하는지?

앙상블 기법

여러 개의 모델을 사용해서 각각의 예측 결과를 만들고, 그 예측 결과를 기반으로 최종 예측 결과를 결정하는 방법
https://encord.com/blog

  • 배깅 : 학습 데이터를 무작위로 여러 샘플로 나누어 각각 독립적으로 모델을 학습
    - 랜덤 포레스트
    • 병렬 처리 가능 -> 빠른 속도
    • 모델 간 상호 간섭이 적어 안정적이고 과적합이 줄어드는 효과 있음
    • 단, 해석이 어려움
  • 부스팅 : 순차적으로 약한 학습자를 추가 결합하여 하나의 강한 모델을 만드는 방법. 각각의 모델은 이전 모델이 틀린 부분에 가중치를 더 둬서 학습
    -> XGBoost (Extreme Gradient Boosting)
    • 각 단계에서 오류를 보정하기 때문에 정확도가 높고, 복잡한 데이터 패턴 포착에 용이
    • 단, 병렬화가 쉽지 않고, 튜닝이 까다로움(하이퍼파라미터 多)

XGBoost 앙상블 모델

  1. 약한 결정 트리로 기본 모델 훈련 -> 예측 오류 확인
  2. 예측 오류가 컸던 샘플에 높은 가중치 부여
  3. 다음 모델(결정 트리) 훈련 -> 다시 오류 보정
  4. 위 과정을 여러 번 반복해서 최종 예측 시 모두 합산

XGBoost 이전의 결정트리 모델은 노드를 분할하는 지점을 탐색할 때 모든 경우의 수를 고려함으로써 최적해를 찾았다.

현재 진행상황

  • 중앙값처리, 1로 전환, sensor 컬럼에서 이상치 확인
  • 변수이름 빈칸 처리 필요

0개의 댓글