주제 탐색

3eo·2026년 2월 27일

[금융] 대출 데이터 분석 및 분류 모델링

대출 특성과 대출 상환 가능성 관계 분석 통한 상환 예측 모델
대출 상환 성공 여부에 영향을 미치는 요인 파악
신용 위험 평가 전략 수립
대출 상환한 고객('Fully Paid')과 채무불이행 고객('Charged Off', 'Default' 등)을 분류하는 이진 분류 모델

데이터셋 : 2가지 파일(승인된 대출정보/거절된 대출신청정보)
-> 2007년부터 2018년 4분기까지의 P2P 대출 정보
컬럼이 엄청 많음(151개(추려도 많은)....


[제조] 다이캐스팅 공정 데이터 기반 품질 예측 분석

공정 변수(주조 압력, 금형 온도, 주입 속도 등) & 센서 데이터(온도, 압력, 유량, 진동 등)를 분석하여 불량 여부를 판별
불량 발생의 주요 원인을 분석
다양한 불량 유형(미성형, 박리, 기공, 평탄, 개재물 등)을 자동 예측

데이터셋 : 1개

{
    "공정_변수": {
        "속도": {
            "단계별_사출": ["Velocity_1", "Velocity_2", "Velocity_3"],
            "최고_사출": "High_Velocity"
        },
        "압력": {
            "실린더": "Cylinder_Pressure",
            "주조": "Casting_Pressure",
            "공기": ["Air_Pressure_Min", "Air_Pressure_Max"],
            "냉각수": "Coolant_Pressure"
        },
        "시간": ["Rapid_Rise_Time", "Cycle_Time", "Pressure_Rise_Time", "Spray_Time"],
        "물리량": ["Clamping_Force", "Factory_Humidity", "Factory_Temp", "Coolant_Temp"]
    },
    "불량_유형": {
        "표면": ["Stain", "Dent", "Scratch", "Buring_Mark"],
        "구조": ["Short_Shot", "Bubble", "Blow_Hole", "Deformation", "Crack"],
        "이물질": ["Contamination", "Impurity", "Inclusions"]
    }
}

Online Retail 데이터 - 고객 클러스터링

  • RFM(Recency, Frequency, Monetary) 분석을 통한 고객 가치 평가 -> 고가치 고객 유지
  • 머신러닝 클러스터링 기반 고객 세그먼테이션 수행
  • 세그먼트별 맞춤형 마케팅 전략 제안
  • 고객 이탈 예측 및 재구매 예측 모델 개발
    재고 관리 및 수요 예측 최적화

데이터 구조:
2010년 12월부터 2011년 12월까지의 실제 거래 데이터로, 541,909건의 거래 기록을 포함

변수명설명데이터 타입특이사항
InvoiceNo송장 번호 (거래 ID)String'C'로 시작하면 취소 거래
StockCode제품 코드String
Description제품 설명String
Quantity거래 수량Integer
InvoiceDate거래 일시DateTime2010-12-01 ~ 2011-12-09 (약 1년)
UnitPrice단가Float파운드(£) 단위
CustomerID고객 IDFloat
Country고객 국가String38개국

데이터 통계:

  • 총 거래 수: 541,909건
  • 고유 고객 수: 약 4,400명
  • 고유 제품 수: 약 4,000개
  • 거래 기간: 12개월
  • 주요 시장: UK (91%), 독일, 프랑스 등

[회귀]

Airbnb 숙소 가격 예측

주요 가격 결정 요인 도출 (예: 위치, 리뷰 수, 숙소 유형 등)
주요 컬럼( 총 72개)
회귀 모델링

  • 선형 회귀: LinearRegression, Ridge, Lasso, ElasticNet 등
  • 비선형 모델: RandomForest, GradientBoosting, XGBoost 등 비교

[분류, 회귀, 군집]

Olist 브라질 전자상거래 데이터 분석

데이터셋 : 2016년부터 2018년까지 브라질 여러 온라인 마켓플레이스에서 발생한 약 10만 건의 실제 주문 데이터
전자상거래의 전 과정을 다층적으로 관찰
각 주문에 대한 위치 정보(우편번호, 위도/경도)도 제공되어 지역별 분석과 지도 시각화

테이블 Join 필요

  • 분류(Classification) : 고객 리뷰 만족/불만족 예측
    - 불만족 리뷰의 주요 요인 (제품 카테고리, 배송지연여부, 결제방식 등 연관성)
  • 회귀(Regression) : 실제 배송 소요 기간 예측
    - 주문 지역, 배송사 정보, 판매자 거점과의 거리 등 다양한 변수로 예측 모델
  • 군집(Clustering) : 고객 구매 패턴에 따른 군집 도출 및 특성 정의
    - 고객별 주문 횟수, 평균 구매액, 결제 유형, 지역, 리뷰 패턴 등을 활용

0개의 댓글