대형 쇼핑몰 등 오프라인 매장을 운영하는 고객은 유동 인구 측정에 대한 니즈가 있습니다. 유동 인구 측정을 위해 피플 카운팅이 가능한 기기를 설치하는데요.
피플 카운팅이란?
매장 입구에 설치된 기기에서 추출된 입/출입 데이터를 통하여 출입 인원을 카운팅함으로써 매장별 방문자 성향을 단순한 추측이 아닌 명확한 데이터를 분석, 마케팅 목적으로 활용하는 것
※ 출처 : 네이버 블로그, Security 이야기
저희 회사에서도 고객의 수요에 사전 대응하기 위해 한 업체의 피플 카운팅 기기를 도입할지 말지 의사결정이 필요했습니다. 의사결정을 위해 피플 카운팅 기기에 대한 정확성 검증 실험을 진행했는데요. 일주일 동안 사옥 입구에 피플 카운팅 기기를 설치했습니다.
피플카운팅 기기의 입/출입 데이터와 사옥 게이트(사옥 출입을 위해 사원증을 찍어야 들어갈 수 있는 게이트
)의 입/출입 데이터의 수치를 비교하며 정확성을 검증했는데요. 정확성 검증을 하기 위해, 피플카운팅과 사옥게이트 입/출입 데이터 분포의 차이를 그래프로 그려보면서 비교했습니다.
데이터분석가는 분석 결과로 의사결정자를 설득해야합니다. 의사결정자를 설득하기 위해 기준 시점과 현재 시점의 데이터가 어떻게 다른지, 같다고 볼 수 있는지를 수치적으로 설명해야하는데요.
그래프로 비교해서 설명해도 되지만, 두 분포를 객관적으로 검증 할 수 있는 지표로 설명을 한다면 더 효과적으로 설득할 수 있을 거예요. 대표님께서 두 분포의 차이를 객관적으로 검증할 수 있는 지표인 PSI(Population Stability Index)를 알려주셔서 적용해보며 학습했습니다.
PSI(Population Stability Index)는 주로 금융업에서 사용되어서 저도 처음 들어보는 지표였습니다. 지표를 계산해보면서, 많은 정보를 압축해서 보여주는 등 장점이 많다고 생각했어요. 예상 독자는 아래와 같습니다!
기준 시점(Expected)
현재 시점(Actual)
값 범위는 0~1
사이 숫자로 계산되며, 수치가 클수록 모집단의 변화가 크다는 것을 의미하고 수치가 작을 수록 안정적이다는 의미
PSI값 | 해석 |
---|---|
PSI < 0.1 | 다르지 않다. |
0.1 ≤ PSI < 0.2 | Grey Zone(통계적으로 의미 다르다고 볼 수 있어, 뭐가 달라졌는지 분석해봐야한다.) |
0.2 ≤ PSI | 다르다. |
PSI는 신용평가모형(Credit Score System, CSS)의 안정성을 검증하는 지표로 사용합니다.
신용평가모형(Credit Score System, CSS)이란?
개인이나 기업의 신용도를 평가하여 신용평점 또는 신용등급을 산출하는 모형으로 대상자의 과거 데이터를 바탕으로 미래 금융리스크를 예측한다. 금융회사는 자체 신용평점시스템을 기준으로 대출 승인, 신용카드발급, 한도, 금리결정 등 각종 금융거래를 위한 의사결정을 하는데 사용한다.
※ 출처 : NICE평가정보, 개인신용평점의 의미
신용평점이 일정 수준(EX. 600점) 이하일 경우, 대출이 거절되거나 신용카드 발급이 제한됩니다.
신용평가모형 개발 당시 개인의 신용점수 분포도가 있을텐데 시간이 지나면, 신용 점수 분포도가 틀어질 수 있습니다.
모형 개발 후에는 지속적으로, 과거 개발 당시 기준 시점의 신용평점별 인원수 분포와 현재 시점의 신용평점별 인원수 분포를 비교하여 모형의 안정성을 검증하는 것이 중요합니다.
기준시점
)에 당시 신용평점별 인원수를 기준으로 신용평가모형 개발했습니다.현재시점
)에 해당 모형을 재검토 할 필요가 있을지 안정성을 검증해보려고 합니다.2019년 12월
)과 현재시점(2021년 12월
) 두 분포는 차이가 있을까?0.1
보다 작은 0.074
로 두 분포는 다르지 않다고 볼 수 있습니다.신용평가모델의 안정성을 검증하는 지표인 PSI는 데이터의 개수와 무관하고, 시간의 흐름에 따른 분포의 변화를 계량화하여 비교해볼 수 있다는 장점이 있습니다.
저 역시 앞서 문제 상황에서 나왔던 피플카운팅 기기의 입/출입 데이터와 사옥 게이트(사옥 출입을 위해 사원증을 찍어야 들어갈 수 있는 게이트
)의 입/출입 데이터의 분포를 PSI로 계산하여 보고서를 작성해봤는데요! 이 글을 보시는 분들도 기준시점 분포
와 현재시점 분포
가 차이가 있는지 없는지 객관적으로 검증해보고 싶을 때 사용해보시면 좋을 것 같습니다!
Python으로 PSI를 구현한 코드도 있어 남깁니다!