2025.06.26 본_캠프 90일차

민동·2025년 6월 26일
1

본캠프

목록 보기
70/74

주요 특징 및 핵심 기술

  1. 주요 특징 및 핵심 기술

    • 데이터 통합 플랫폼 : 지반침하 관련 데이터(지하안전정보,기상,지하수,지반,시설물 등)를 수집,연계하여 위험도를 종합평가한다. 분산된 기관별 데이터와 부분 공개된 정보를 한 곳에 모아 실시간 상황판을 제공
    • AI/ML 기반 예측 : 머신러닝(ML) 분류 모델들을 활용해 싱크홀 발생 확률을 예측하고, 이상탐지 기법으로 사전 징후를 포착함.
    • LightGMB,XGBoost,RandomForest 등 앙상블 모델을 포함한 여러 알고리즘을 비교 분석하여 최적 모델을 선택하며, SHAP로 위험 요인을 설명함 , 이를 통해 예측뿐 아니라 설명,전략 수립까지 지원
    • GIS 시각화 & 경보 : 지리정보시스템 기술로 위험도를 지도 상에 시각화하고, 고위험 지역은 경보 알림을 제공 GeoPandas,Folium 등으로 공간분석을 수행하고, 결과를 웹 대시보드 형태로 제공하여 사용자가 한 눈에 지반침하 위험지역과 발생 요인을 파악하도록 제공
  2. 데이터 수집 밑 통합 과정

    • 데이터 수집
      - 싱크홀 발생 이력 : 국토교통부 지하안전정보시스템(JIS) 사고기록 (위치,일자 등)
      - 지하수 환경 : 국가지하수정보 플랫폼의 지하수위,수온,EC 데이터
      - 기상 데이터 : 기상청(KMA)의 강수량 및 기온 정보 (특정 위치 및 기간별 자료)
      - 지질 정보 : 한국지질자원연구원 Geo 빅데이터 플랫품의 지층 분포
      - 인프라 정보 : 서울시 시설물통합관리(FMS)의 지하시설 및 도로굴착 관리시스템의 굴착 공사내역, 국토부 서울교통공사의 지하철 역사 위치, 건축 행정시스템(건축 Hub)의 건축물 정보등
      .
  3. 통계 분석 및 주요 인자 탐색

    • 수집된 데이터에 EDA과 통계 분석을 실시하여, 어떤 요인들이 지반침에 영향을 미치는 확인함. 특히 싱크홀 발생 그룹과 미발생 그룸을 비교하여 변수 분포 차이와 상관성을 검토함. 도메인 지식과 선행연구를 바탕으로 핵심 변수를 선정.
    • 변수들에 대해 기술통계 요약과 상관분석(피어슨 상관계수 등)을 수행하여 다중공선성을 진단하고 모델 입력 변수로 최종 선정함. 변수가 서로 강하게 상관될 경우 VIF 지표 등을 활용해 제거 또는 차원 축소로 검토하였으며, 주요 변수들의 분포 차이가 통계적으로 유의미함을 확인 함.
  1. 머신러닝 모듈 요약

    기술 모듈대표 모델·도구선택 이유,기대 효과시스템 활용
    예측 모델링LightGBM, XGBoost, RandomForest, CatBoost다양한 변수를 처리하고 중요도를 계산한다.위험 확률 지도를 만들고 실시간 데이터로 알림을 보낸다.
    모델 해석(XAI)SHAP각 변수의 영향 값을 계산해 결과를 해석한다.대시보드에 SHAP 값과 변수 순위를 그래프로 보여준다.
    이상 탐지Isolation Forest라벨 없이 이상 패턴을 찾는다.지하수,GPS 데이터를 모니터링해 이상을 알린다.
    하이퍼파라 최적화Optuna최적 파라미터를 빠르게 찾는다.자동 튜닝을 실행하고 MLflow에 기록한다.
  2. 데이터 전처리 파이프라인 요약

전처리 단계적용 기법목적 , 기대 효과
결측치 보정다중 대체(MICE)통계적으로 누락값을 추정해 표본 수와 변수 분포를 그대로 보존함으로써 데이터 손실과 예측 편향을 동시에 줄입니다.
이상치 완화IQR·MAD 기반 Winsorizing극단값을 허용 범위로 눌러 모델 분산 왜곡 방지
좌표계 통일·공간 결합좌표계 변환 + Spatial Join좌표계를 하나로 맞춰 위치 오차를 제거한 뒤, 사고 지점 중심 500 m 버퍼 안 변수들을 결합해 정밀 공간 분석 정확도를 높입니다.
시계열 파생이동평균·표준편차(MA·SD)±6 개월 창으로 평균·변동성을 산출해 패턴 보존
분포 정규화Box-Cox + Z-Score장꼬리 분포를 정규화 후 스케일 맞춤
범주형 인코딩타깃 인코딩(TE),빈도 인코딩(FE)드문 범주는 TE로 정보 보존, 다빈도는 FE로 열 수 축소
클래스 불균형 완화클래스 가중치 + Stratified K-Fold가중치로 발생 라벨을 균형 있게 학습
다중공선성 진단VIF ≤ 5상관 과잉 변수를 제거,결합해 해석력 향상
차원 축소PCA (2–3 PCs)핵심 정보를 주성분에 압축해 연산 비용 절감
특성 선택L1-RFE중요 피처만 남겨 학습·해석 효율 모두 향상
profile
아자아자

0개의 댓글