https://ieeexplore.ieee.org/document/9140234
[분류모델]: 파산 확률 추정에는 초점 but 파산까지 걸리는 예상 시간은 명시적으로 고려X
↔ [생존분석]: 관심사건이 발생할 시점(관측 시간 동안 발생하지 않을 수도 있음)을 다루는 기법
- 금융 파산 예측에서는 생존 분석이 드물게 사용됨
- 본 연구에서는 파산 예측에 있어서 생존 분석의 적용 가능성을 평가하겠음
- 최신 통계 모델 + 머신러닝 모델 비교
⇒ 결과)
1️⃣ 주어진 데이터에서 위험한 dynamic에 관한 유용한 정보를 추출하고,
2️⃣변수들의 영향을 추정하는데 효과적임
기업실패예측 → 경제와 사회 모두에게 중요한 역할
파산으로 인한 손실 → 기업 환경의 안정성 저해
⇒ 기업 관계자들은 파트너, 고객, 금융기관의 지속 가능성을 예측하는 것이 매우 어렵고도 중요한 과제가 됨
대부분 분류 모델 기반으로 예측
⇒ 재무적 특성을 바탕으로 기업이 파산할 사후 확률 추정하는 방식 but 파산까지 걸리는 시간은 고려x
보통 “파산 1년 전의 재무 데이터”를 기준으로 학습
→ 이 모델의 출력은 “해당 기업이 앞으로 1년 안에 파산할 확률”이 됨
but, 현실에서는 어떤 기업은 6개월, 3개월, 심지어 몇 주 안에 파산할 수도 있음
⇒ “1년 안에 파산할 가능성”만 알려주는 모델은 너무 늦게 알려주는 것일수도..
쉽게 말해, 한 달 뒤 망할 회사인데 “1년 안에 망할 수 있다”는 말만 듣고 대비하면 이미 늦어서 구제나 투자 회수 같은 조치를 못할 수도 있다
→ 분류모델은 단순히 1년 안에 망하는 그룹 vs 안 망하는 그룹만 구분하기 때문에 “파산까지 남은 시간(속도)”는 고려하지 못함
금융 파산 예측에서는 생존분석이 상대적으로 드물게 사용X
📌 연구 목표
→ 파산 예측에 생존분석(SA)의 적용 가능성 평가
📌 생존 분석 모델

1️⃣통계적 방법 2️⃣머신러닝 기반 방법
1. 통계적 방법: 사건 발생 시간의 분포와 생존 곡선을 추정하여 모수를 추정하는데 중점 - 비모수적 방법(kaplan-meier 모형), 준모수적 방법(cox회귀), 모수적 방법(accelerated failure time 모형)


2, 머신러닝 기반: 트정 시점에서 사건 발생을 예측하는데 주로 초점
# 통계적 방법과 머신러닝 기반 방법이 차이가 나는 이유?
- 통계적 방법 (분포, 생존곡선 직접 추정 → 모수 해석 가능-예측+원인 해석)
- 철저히 확률 모형(확률분포)을 세우는 데 기반을 둠
- “생존시간 T는 어떤 분포를 따른다”라는 전제에서 시작
→ 시간분포(생존함수, 위험함수) 자체를 추정하고 그 과정에서 분포의 모수(파라미터)를 구하는 것이 목표- 머신러닝 기반 방법
- 확률분포보다는 예측 정확도에 초점
- “이 기업이 앞으로 3개월 안에 망할까?” 같은 구체적인 시점에서의 사건 발생 여부를 분류/회귀 문제로 바꿔 품
- 분포를 추정하거나 모수를 해석하는 것보다는, 데이터의 패턴을 학습해서 정확히 맞추는 것이 중요
# 통계적 방법은 왜 사건 발생 시간 분포와 생존 곡선에 집중?
- 생존 분석의 본질적인 질문 때문
- 원래 의료, 공학 분야에서 생겨난 분석 기법으로 “얼마나 오래 버틸 수 있냐” 같은 시간 분포 자체가 관심사
- 모수 추정을 통해 해석 가능성 확보
- Cox 회귀 → 특정 공변량(ex. 부채비율)이 위험도를 몇 배 높이는지 계수로 해석 가능
- Kaplan-Meier → 분포를 가정하지 않고 경험적으로 생존 곡선 추정
- Weibull 모형 → 시간에 따라 위험이 증가하는지 감소하는지 알 수 있음
생존분석은 파산예측에 효과적으로 활용될 수 있으며, 특히 Random Survival Forest(RSF) 같은 머신러닝 기반 모델이 기존 통계적 생존 모델이나 전통적 분류 모델보다 더 높은 정확성과 안정성을 보인다.
SA모델은 단순히 파산 여부를 예측하는데에 그치지 않고, 시간에 따른 위험 변화와 검열 데이터를 고려할 수 있어서 더욱 정교한 리스크 관리가 가능하다.
본 논문은 단순히 파산 여부만을 예측하는 기존 연구에서 한 걸음 더 나아가, "언제" 파산이 일어날 지에 대해 다루고 있다는 점이 인상 깊다.
개인적으로는 데이터 불균형 상황에서 생존 분석이 분류보다 유리하다는 결과는 다른 금융 리스크 예측 문제에서도 확장 가능할 수도 있지 않을까