오늘은 CDP의 Unlocking Climate Solutions 대회 데이터 셋을 활용한 분석 노트북Measuring Urban Climate Equity을 따라 쓰면서 새로 배운 분석 방법론이나 유용한 인사이트를 정리하고자 한다. 복잡한 구조를 가진 데이터 셋을 어떻게 파악하고 정리할 것인지, 여기서 유용한 분석 지표를 발굴하는 방법은 무엇인지, 해당 KPI에 연결되는 인사이트 추출 솔루션을 어떻게 자동화할 것인지에 초점을 맞춰 필사를 진행했다.
과제 배경
기업과 정부가 온실가스 배출량을 줄이고 수자원과 산림을 보호할 수 있게 하는 글로벌 비영리 단체인 CDP는 매년 보고서 공개 여부와 환경 리더십을 향한 계획에 따라 기업과 도시에 점수를 매기고 있다.
CDP가 가진 방대한 세계적 환경 데이터를 분석하여 기후 변화, 물 안보, 삼림 벌채, 사회적 불평등과 관련된 가장 시급한 문제에 대한 해결책을 찾는 것이 목표다. 혹은 환경 및 사회적 이슈와 관련된 KPI를 계산하는 방법론을 개발해야 한다. 그 예시는 다음과 같다.
도시를 경기 침체에서 벗어나게 하고, 기후 문제를 완화하는 데 도움이 되면서도 인종적/사회적 불평등을 영속화하지 않도록 투자할 수 있는 프로젝트는 무엇일까?
도시와 기업이 공존할 수 있는 실행 가능한 전략은 무엇일까? 도시의 문제에 영향받는 기업, 혹은 기업의 문제에 영향받는 도시가 해결할 수 있는 문제는 과연 무엇일까?
환경 위험과 사회적 형평성 사이의 교차점을 어떻게 측정할 수 있을까?
솔루션 제안 방식
데이터셋 설명
CDP가 제공한 데이터 셋은 크게 아래 세 가지로 구성되어 있으며, 이외에도 분석에 필요한 보충 데이터 셋이 함께 첨부되어 있다.
(1) corporate climate change disclosures
(2) corporate water security disclosures
(3) disclosures from cities
이 대회에서는 방대한 데이터 구조를 파악하기 쉽도록 아래와 같이 유용한 시각화 자료를 제시해 주었다. 내가 가진 시각화 코드를 정리해 보았다.

내가 생각해 본 분석 과제 및 데이터간 관계
자세한 내용은 캐글 필사 노트북에서 확인!