[금융] 대출 데이터 분석 및 분류 모델링
대출 특성과 대출 상환 가능성 관계 분석 통한 상환 예측 모델
대출 상환 성공 여부에 영향을 미치는 요인 파악
신용 위험 평가 전략 수립
대출 상환한 고객('Fully Paid')과 채무불이행 고객('Charged Off', 'Default' 등)을 분류하는 이진 분류 모델
데이터셋 : 2가지 파일(승인된 대출정보/거절된 대출신청정보)
-> 2007년부터 2018년 4분기까지의 P2P 대출 정보
컬럼이 엄청 많음(151개(추려도 많은)....
★
[제조] 다이캐스팅 공정 데이터 기반 품질 예측 분석
공정 변수(주조 압력, 금형 온도, 주입 속도 등) & 센서 데이터(온도, 압력, 유량, 진동 등)를 분석하여 불량 여부를 판별
불량 발생의 주요 원인을 분석
다양한 불량 유형(미성형, 박리, 기공, 평탄, 개재물 등)을 자동 예측
데이터셋 : 1개
{
"공정_변수": {
"속도": {
"단계별_사출": ["Velocity_1", "Velocity_2", "Velocity_3"],
"최고_사출": "High_Velocity"
},
"압력": {
"실린더": "Cylinder_Pressure",
"주조": "Casting_Pressure",
"공기": ["Air_Pressure_Min", "Air_Pressure_Max"],
"냉각수": "Coolant_Pressure"
},
"시간": ["Rapid_Rise_Time", "Cycle_Time", "Pressure_Rise_Time", "Spray_Time"],
"물리량": ["Clamping_Force", "Factory_Humidity", "Factory_Temp", "Coolant_Temp"]
},
"불량_유형": {
"표면": ["Stain", "Dent", "Scratch", "Buring_Mark"],
"구조": ["Short_Shot", "Bubble", "Blow_Hole", "Deformation", "Crack"],
"이물질": ["Contamination", "Impurity", "Inclusions"]
}
}
★
Online Retail 데이터 - 고객 클러스터링
데이터 구조:
2010년 12월부터 2011년 12월까지의 실제 거래 데이터로, 541,909건의 거래 기록을 포함
| 변수명 | 설명 | 데이터 타입 | 특이사항 |
|---|---|---|---|
| InvoiceNo | 송장 번호 (거래 ID) | String | 'C'로 시작하면 취소 거래 |
| StockCode | 제품 코드 | String | |
| Description | 제품 설명 | String | |
| Quantity | 거래 수량 | Integer | |
| InvoiceDate | 거래 일시 | DateTime | 2010-12-01 ~ 2011-12-09 (약 1년) |
| UnitPrice | 단가 | Float | 파운드(£) 단위 |
| CustomerID | 고객 ID | Float | |
| Country | 고객 국가 | String | 38개국 |
데이터 통계:
[회귀]
Airbnb 숙소 가격 예측
주요 가격 결정 요인 도출 (예: 위치, 리뷰 수, 숙소 유형 등)
주요 컬럼( 총 72개)
회귀 모델링
[분류, 회귀, 군집]
Olist 브라질 전자상거래 데이터 분석
데이터셋 : 2016년부터 2018년까지 브라질 여러 온라인 마켓플레이스에서 발생한 약 10만 건의 실제 주문 데이터
전자상거래의 전 과정을 다층적으로 관찰
각 주문에 대한 위치 정보(우편번호, 위도/경도)도 제공되어 지역별 분석과 지도 시각화
테이블 Join 필요