WoE 와 IV ( Weight of Evidence, Info. Value ) - 1

2400·2022년 3월 5일
0

WEIGHT OF EVIDENCE (WOE) AND INFORMATION VALUE (IV) EXPLAINED

https://www.listendata.com/2015/03/weight-of-evidence-woe-and-information.html

In this article, we will cover the concept of weight of evidence and information value and how they are used in predictive modeling process

WOE, Info Value 에 대한 컨셉을 알아볼것이다.

These two concepts - weight of evidence (WOE) and information value (IV) evolved from the same logistic regression technique.

로지스틱 회귀 테크닉에서 진화된(파생된) 개념이다.

They have been used as a benchmark to screen variables in the credit risk modeling projects such as probability of default. They help to explore data and screen variables. It is also used in marketing analytics project such as customer attrition model, campaign response model etc.

원래 이것들은 리스크 모델링이나 확률에 사용되던 것들이다.

데이터 탐색에 사용된다.

마케팅 분석 등에도 사용된다.

What is Weight of Evidence (WOE)?

The weight of evidence tells the predictive power of an independent variable in relation to the dependent variable.

WOE 의 컨셉은 종속변수 대비 독립 변수가 예측력이 얼마나 강한지 설명하는 지표이다.

Distribution of Goods - % of Good Customers in a particular group
Distribution of Bads - % of Bad Customers in a particular group
ln - Natural Log

It's good to understand the concept of WOE in terms of events and non-events.

그림과 함께 이해해보자.

수치형 변수의 경우, 가령 구간을 10개로 나누었다.
( 수치형도 discrete 하게 binning을 해줘서 일종의 카테고리화 시키는 것이다. )

구간별로, Non Event 와 Event 개수를 카운팅한다.
( 이렇게 갯수 카운트를 구하면 특정 구간내에서 row 기준 비중이 구해지고
column 기준으로도 비중이 구해진다. )

그리고 Non Event 의 경우, 세로의 Non Event 의 총합을 구한 후,
특정 구간의 Non Event 노출 개수를 구해서
해당 구간에서의 전체 Non Event 가운데 Non Event가 몇 % 등장했는지 구한다.
Event 의 경우도 동일하다.
( 여기서 말하는 % of Event/Non-Event 는 칼럼 기준으로 비중을 말한다. )

그러면 그림에서 보듯 Non Event 는 201 - 250 구간에서 가장 높은 Non Event %를 기록하고Event 는 251 - 300 구간에서 가장 높은 Event % 를 기록한다.

WOE 식에서는 ln (NonEvent% / Event%) 로 표현되어서 결국
NonEvent% - Event% 로 볼 수 있는데,
151~200 구간에서 가장 크고
( Event%에 집중한다면 )
351~400 에서 가장 작다.

( 그렇다면 드는 생각이 있다. 왜 row 기준이 아닌 col 기준일까? 더 좋은 이유가 있어서일까?
예를 들어 row 기준으로 보면
0-50 구간에서 Event의 row 기준 비중은 10%가 넘고, 이후 구간에서 10% 미만이다가 300 이상 구간에선 10%가 넘는다. 그럼 양 극단에서 무언가 의미가 있다는 뜻이 될 수 있지 않을까? )

그런데 왜 WoE 나 IV 에선 col 기준인가?
col 기준으로 보니 오히려 50 이상 300 미만 구간에서 % of Event가 높게 나온다.

row 에서 비중을 보면 모수의 차이 ( 구간별로 Non Event + Event 개수 차이가 있어서 ) 때문에 오류가 있을 수 있다.

우선 직관적으론, % of Events 가 높은 순서대로 피쳐가 중요할것이라고 생각이 들었지만

WoE에서 굳이 non event / event 로 표현하고 로그를 씌운것에는 어떤 의도가 있다고 생각이 들었다.

둘이 같은 비율이라면 0이 될 것이고

로그 특성상
1. 단조 증가
2. x 가 1 미만에선 기울기가 급강하해서 오히려 event 에 민감하게 반응하는 효과가 있다..

WOE 식을 다시 보자.

즉 어떻게 보면 Event 발생율이 큰 경우, 우리가 집중해야 하는 포인트 이고 ( ex. 신용 연체, Fraud Detection )

non Event 대비 Event 값이 상대적으로 큰 경우, 우리가 집중해야 한다는 포인트기 때문에 Ln 이라는 함수의 형태를 빌린게 아닌가 싶다.

특히 50 : 50 이면 무의미하면서, Event 율이 상대적으로 더 중요함을 강조하기 위해서 말이다.

그러면 이제 절대값으론 커지면서 실제 값으로는 상대적인 Event % 에 따라 급격히 작아지는 WOE 에 대해서 알아봤다.

그럼 최종적으로 Info. Value 는 어떻게 계산될까?

아마 생각해보건대 WOE 에 절대값을 취해주는 것 혹은 - 값을 곱해주는것 과 비슷한 효과를 내는 식이지 않을까?

IV는 WOE 에다, Event %가 높으면 - 값이 되는 값 ( 시그마 % 넌이벤트 - % 이벤트 ) 을 곱해주는 값이다.

IV를 제안한 최초의 사람의 의도는 정확히 모르겠지만

Event % 값에 민감한 WOE 값.

거기다 - 값을 곱해주며 최종적으로 ( Event %에 민감하며, 상대적으로 Event %값이 높을 경우) IV 값을 큰 양수의 값으로 만들어주는 것이 IV 식의 의도이지 않을까? 생각해본다.

profile
공부용 혹은 정리용 혹은 개인저장용

0개의 댓글