[논문 리뷰] Bankruptcy Prediction Using Survival Analysis Technique

BITLAB·2025년 9월 30일

목록 보기

2/2

https://ieeexplore.ieee.org/document/9140234

Overview

[분류모델]: 파산 확률 추정에는 초점 but 파산까지 걸리는 예상 시간은 명시적으로 고려X
↔ [생존분석]: 관심사건이 발생할 시점(관측 시간 동안 발생하지 않을 수도 있음)을 다루는 기법

금융 파산 예측에서는 생존 분석이 드물게 사용됨

본 연구에서는 파산 예측에 있어서 생존 분석의 적용 가능성을 평가하겠음

최신 통계 모델 + 머신러닝 모델 비교
⇒ 결과)
1️⃣ 주어진 데이터에서 위험한 dynamic에 관한 유용한 정보를 추출하고,
2️⃣변수들의 영향을 추정하는데 효과적임

Introduction

기업실패예측 → 경제와 사회 모두에게 중요한 역할
파산으로 인한 손실 → 기업 환경의 안정성 저해
⇒ 기업 관계자들은 파트너, 고객, 금융기관의 지속 가능성을 예측하는 것이 매우 어렵고도 중요한 과제가 됨
대부분 분류 모델 기반으로 예측
⇒ 재무적 특성을 바탕으로 기업이 파산할 사후 확률 추정하는 방식 but 파산까지 걸리는 시간은 고려x

[분류모델]

보통 “파산 1년 전의 재무 데이터”를 기준으로 학습
→ 이 모델의 출력은 “해당 기업이 앞으로 1년 안에 파산할 확률”이 됨
but, 현실에서는 어떤 기업은 6개월, 3개월, 심지어 몇 주 안에 파산할 수도 있음
⇒ “1년 안에 파산할 가능성”만 알려주는 모델은 너무 늦게 알려주는 것일수도..

쉽게 말해, 한 달 뒤 망할 회사인데 “1년 안에 망할 수 있다”는 말만 듣고 대비하면 이미 늦어서 구제나 투자 회수 같은 조치를 못할 수도 있다
→ 분류모델은 단순히 1년 안에 망하는 그룹 vs 안 망하는 그룹만 구분하기 때문에 “파산까지 남은 시간(속도)”는 고려하지 못함

↔ [생존분석]

금융 파산 예측에서는 생존분석이 상대적으로 드물게 사용X

Aziz와 Dar(2006) 파산 예측 모델에 관한 리뷰에서 판별분석, 로짓, 사례 기반 추론, 신경망, 러프 집합 등 12가지 분류 모델 언급 but 생존분석은 포함X
- 판별분석, 로지스틱 회귀에 집중

6개의 머신러닝 모델(신경망, 서포트 벡터 머신, 러프 집합, 사례 기반 추론, 의사결정나무, 유전 알고리즘)

📌 연구 목표

→ 파산 예측에 생존분석(SA)의 적용 가능성 평가

📌 생존 분석 모델

통계기반(1970 초 등장)
머신러닝(ML)기반(최근)
- 회귀, 특히 분류 기반 파산 예측에서 통계적 모델보다 성능⬆️

Survival Analysis Models

생존분석

1️⃣통계적 방법 2️⃣머신러닝 기반 방법

1. 통계적 방법: 사건 발생 시간의 분포와 생존 곡선을 추정하여 모수를 추정하는데 중점 - 비모수적 방법(kaplan-meier 모형), 준모수적 방법(cox회귀), 모수적 방법(accelerated failure time 모형)

2, 머신러닝 기반: 트정 시점에서 사건 발생을 예측하는데 주로 초점

# 통계적 방법과 머신러닝 기반 방법이 차이가 나는 이유?

통계적 방법 (분포, 생존곡선 직접 추정 → 모수 해석 가능-예측+원인 해석)

철저히 확률 모형(확률분포)을 세우는 데 기반을 둠

“생존시간 T는 어떤 분포를 따른다”라는 전제에서 시작
→ 시간분포(생존함수, 위험함수) 자체를 추정하고 그 과정에서 분포의 모수(파라미터)를 구하는 것이 목표

머신러닝 기반 방법

확률분포보다는 예측 정확도에 초점

“이 기업이 앞으로 3개월 안에 망할까?” 같은 구체적인 시점에서의 사건 발생 여부를 분류/회귀 문제로 바꿔 품

분포를 추정하거나 모수를 해석하는 것보다는, 데이터의 패턴을 학습해서 정확히 맞추는 것이 중요

# 통계적 방법은 왜 사건 발생 시간 분포와 생존 곡선에 집중?

생존 분석의 본질적인 질문 때문

원래 의료, 공학 분야에서 생겨난 분석 기법으로 “얼마나 오래 버틸 수 있냐” 같은 시간 분포 자체가 관심사

모수 추정을 통해 해석 가능성 확보

Cox 회귀 → 특정 공변량(ex. 부채비율)이 위험도를 몇 배 높이는지 계수로 해석 가능

Kaplan-Meier → 분포를 가정하지 않고 경험적으로 생존 곡선 추정

Weibull 모형 → 시간에 따라 위험이 증가하는지 감소하는지 알 수 있음

Result

RSF(Random Survival Forest)가 가장 좋은 성능을 보였고, AdaBoost와 비슷하지만 더 안정적
통계 모델(CPH, AAR, WAF)도 쓸 수 있으나 RSF보다 성능이 떨어짐
I4(청구 비율)이 모든 모델에게 중요한 파산지표로 나타남
AdaBoost는 민감도와 특이도 균형에서 가장 우수했고, RSF,CPH도 수용 가능한 결과를 보였음
GB, RF, BC 같은 앙상블 모델은 민감도가 낮아 파산 기업을 잘 잡아내지 못함

Conclusion

생존분석은 파산예측에 효과적으로 활용될 수 있으며, 특히 Random Survival Forest(RSF) 같은 머신러닝 기반 모델이 기존 통계적 생존 모델이나 전통적 분류 모델보다 더 높은 정확성과 안정성을 보인다.
SA모델은 단순히 파산 여부를 예측하는데에 그치지 않고, 시간에 따른 위험 변화와 검열 데이터를 고려할 수 있어서 더욱 정교한 리스크 관리가 가능하다.

Comment

본 논문은 단순히 파산 여부만을 예측하는 기존 연구에서 한 걸음 더 나아가, "언제" 파산이 일어날 지에 대해 다루고 있다는 점이 인상 깊다.
개인적으로는 데이터 불균형 상황에서 생존 분석이 분류보다 유리하다는 결과는 다른 금융 리스크 예측 문제에서도 확장 가능할 수도 있지 않을까

BITLAB

AI Insight with Bitlab

이전 포스트