주요 특징 및 핵심 기술
데이터 수집 밑 통합 과정
통계 분석 및 주요 인자 탐색
머신러닝 모듈 요약
기술 모듈 | 대표 모델·도구 | 선택 이유,기대 효과 | 시스템 활용 |
---|---|---|---|
예측 모델링 | LightGBM, XGBoost, RandomForest, CatBoost | 다양한 변수를 처리하고 중요도를 계산한다. | 위험 확률 지도를 만들고 실시간 데이터로 알림을 보낸다. |
모델 해석(XAI) | SHAP | 각 변수의 영향 값을 계산해 결과를 해석한다. | 대시보드에 SHAP 값과 변수 순위를 그래프로 보여준다. |
이상 탐지 | Isolation Forest | 라벨 없이 이상 패턴을 찾는다. | 지하수,GPS 데이터를 모니터링해 이상을 알린다. |
하이퍼파라 최적화 | Optuna | 최적 파라미터를 빠르게 찾는다. | 자동 튜닝을 실행하고 MLflow에 기록한다. |
데이터 전처리 파이프라인 요약
전처리 단계 | 적용 기법 | 목적 , 기대 효과 |
---|---|---|
결측치 보정 | 다중 대체(MICE) | 통계적으로 누락값을 추정해 표본 수와 변수 분포를 그대로 보존함으로써 데이터 손실과 예측 편향을 동시에 줄입니다. |
이상치 완화 | IQR·MAD 기반 Winsorizing | 극단값을 허용 범위로 눌러 모델 분산 왜곡 방지 |
좌표계 통일·공간 결합 | 좌표계 변환 + Spatial Join | 좌표계를 하나로 맞춰 위치 오차를 제거한 뒤, 사고 지점 중심 500 m 버퍼 안 변수들을 결합해 정밀 공간 분석 정확도를 높입니다. |
시계열 파생 | 이동평균·표준편차(MA·SD) | ±6 개월 창으로 평균·변동성을 산출해 패턴 보존 |
분포 정규화 | Box-Cox + Z-Score | 장꼬리 분포를 정규화 후 스케일 맞춤 |
범주형 인코딩 | 타깃 인코딩(TE),빈도 인코딩(FE) | 드문 범주는 TE로 정보 보존, 다빈도는 FE로 열 수 축소 |
클래스 불균형 완화 | 클래스 가중치 + Stratified K-Fold | 가중치로 발생 라벨을 균형 있게 학습 |
다중공선성 진단 | VIF ≤ 5 | 상관 과잉 변수를 제거,결합해 해석력 향상 |
차원 축소 | PCA (2–3 PCs) | 핵심 정보를 주성분에 압축해 연산 비용 절감 |
특성 선택 | L1-RFE | 중요 피처만 남겨 학습·해석 효율 모두 향상 |