ESG와 데이터분석(인공지능)

CODA·2022년 9월 3일
1

보시고 다른곳에 활용하실 때는 출처를 밝혀주시거나 댓글을 남겨주세용!! ㅜㅡㅜ

1. 배경

1-1. 전 세계가 주목하고있는 ESG


박준규, 언론보도에 대한 실무자 인식 및 보도 프레임 연구(2022)

  • ESG의 중요성과 주목도가 세계적으로 높아지면서 국내 재계에서도 ESG에 대한 관심이 급격하게 증가
  • 2021년 1월 14일, 한국거래소는 기업 부담과 공시 사각지대를 줄이고 투자자 보호를 강화하는 기업공시제도 종합 개선방안 발표

1-2. 데이터 분석가가 바라볼 수 있는 ESG

  • 팬데믹을 통해 우리는 예상가능 한 것과 그렇지 못한 것 사이의 경계를 잃게됨
    • 탄소배출 감소, 투명한 인사관리, 다양성 존중 등 지속가능성이 최고의 가치 중 하나로 손꼽히게 됨
  • ESG의 정의는 재무적 요소를 전혀 담고있지 않음
    • 데이터 분석, 인공지능 모델을 통해 기업 운영과 투자에 있어서 ESG가 갖는 잠재의미를 다방면으로 탐구할 예정

2. 참고할 수 있는 데이터

국제표준기구 GRI(Grobal Reporting Initiative)의 평가기준과 산업통상자원부의 K-ESG 가이드라인 모두를 참고하여 데이터 수집의 방향을 설정

2-1. 데이터 종류 및 구분

변수명데이터 타입데이터 출처
기업 폐기물 배출DOUBLE환경부
기업 업종INTEGER산업단지공단
안정성 지표DOUBLEDART
지속가능경영보고서 여부BOOLEANKCGS
자연어분석 EDOUBLE
자연어분석 SDOUBLE-
자연어분석 GDOUBLE-

2-2. 세부 수집 방법 및 계획

웹브라우저 상에서 동적크롤링(Selenium 등)을 통하여 직접 데이터를 수집하여 Sqlite를 이용해 DB로 관리할 수 있음

  • 사업장 배출시설폐기물 발생 및 처리현황 (환경부)
  • 업종관리, 입지관리, 주소관리 (산업단지공단)
  • 재무데이터, 사업보고서 및 분기보고서 (DART)
  • 지속가능경영보고서 공시유무 (KCGS)
  • 국민연금 가입 사업자 내역 (국민연금공단)
  • 증권 기사 (네이버 기사)

E, Environment

💡 지역별 환경 배출 데이터
⇒ 기업의 위치정보 (지역구 위치, 공장 면적 등) 반영한 새로운 변수 생성
⇒ 기업1개의 환경 배출 피쳐 생성

  • Follium, Tableau, Plotly 등을 활용하여 위치정보와 배출량에 대한 정보를 동적으로 구현 가능

< 예시 >
⇒ 기업A가 종로구에 위치한 경우, <종로구 전체 배출량><기업 A의 종로구 대비 면적비율> 로 적용하여 기업A 1개 기업이 갖는 배출량에 대한 영향력 측정

S, Social

💡 사회적 척도를 측정하기 위해 아래와 같은 키워드들로 데이터 수집

  • 임직원 현황
    • 평등 및 다양성
    • 신규 고용 및 이직
  • 안전 보건 , 보안
    • 산업재해
    • 제품 안전
    • 표시 및 광고
  • 사회적 논란 및 지역사회 활성화
  • 국민연금 가입 사업자 내역 데이터 (국민연금공단)
    ⇒ 신규 고용 및 이직 인원 수 확인

  • OPEN DART API
    ⇒ 기업 임직원 성별 현황 및 안정성 지표 데이터 추출

💡 기업 안정성 관련 재무데이터 일부 사용
⇒ ESG의 개념은 통상 재무정보를 포함하지않지만, 재무제표에서 확인할 수 있는 자산, 부채, 자본 등을 파악하여 해당 기업이 경기 변화에 대해 유동적인 대응 및 위험 극복이 가능한가에 대한 안정성 지표로 사용 할 수 있음

  • 자기자본비율
    • 타인의 자본이 아닌 기업의 자금 조달 정도를 측정
    • 자기자본 / 총자산 X 100
  • 유동비율
    • 1년 이내 현금화할 수 있는 자산 (단기적으로 지급할 수 있는 능력)
    • 유동자산 / 유동부채 X 100
  • 당좌비율
    • 유동자산보다 단시간에 현금화할수 있는 당좌자산과 부채와의 관계
    • 당좌자산 / 유동부채 X 100
  • 비유동비율
    • 비유동자산에 투자되어 자본의 고정화 위험을 측정
    • 비유동자산 / 자기자본 X 100
  • 부채비율
    • 부채를 자기 자본으로 나눈 비율
    • 부채 / 자기자본 X 100

G, Governance

⇒ 연구개발비용 / 총매출

  • 사외이사 비율, 출석률 또는 리스크 관리등을 지배구조 판단에 활용
    • 사업보고서를 이용하여 데이터를 수집 예정
    • 이사회 등 회사의 기관에 관한 사항 항목을 토대로 데이터 추출

2-3. 데이터 마이닝 및 전처리 방법

  • 데이터 크롤링 수집 이후 불가용 판단 데이터 제거 및 필요 전처리 조치, 이후 DB화를 위한 과정 수행
  • EDA를 통한 데이터 분포 양상 확인 후 필요한 전처리와 데이터 마이닝 기법 등을 적용한 뒤 기업 도메인을 감안한 ESG 점수 도출

3. 모델 개발 구현

사용 가능 모델 소개

사용할 ESG 등급 예측 모델은 Transformer기반의 BERT 모델과 Ensemble기반의 XGBoost모델로서, 각각의 등급을 Nueral Network 방식으로 도출

  • Transformer

    • RNN(순차적 진행)을 쓰지않고 병렬처리(멀티헤드 어텐션)으로 속도를 높인다
  • BERT(Bidirectional Encoder Representations from Transformers)
    - 2019년 구글에 의해 공개된 사전훈련 모델로서 파인 튜닝(Fine-tuning) 거쳐 해당 데이터에 맞는 모델로 정확도를 향상시킬수 있음, 다양한 도메인에 특화되어 학습 가능

  • XGBoost(eXtreme Gradient Boosting)

  • 확장가능(Scallable)한 트리 부스팅 기반 모델

  • Data 양에 상관없이 사용이 가능, 계산 자원을 과도하게 요구하지 않도록 효율적인 모델

  • DNN(Deep Neural Network)

  • 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이뤄진 인공신경망 모델

ESG 점수 도출 및 Work Flow 도식화

4. 비즈니스 아이디어 및 시각화 대시보드 기획

💡 개발된 ESG 평가 모델은 미래에셋 주식 앱 의 홈/피드 화면에 적용가능

  • 현재 미래에셋에서 제공되는 정보들은 전일 ETF 관심 종목 , 수익률 상위 1% 고객의 구매 종목 등 ****투자자들의 동향을 나타내고 있음

  • ESG 평가가 중요한 투자 지표로 부상함에 따라 도출된 ESG 점수를 환경, 사회, 지배구조 부문 별 우수 기업 리스트와 함께 제공할 수 있음

    • ex) 기업 도메인(업종)별 ESG 우수기업 TOP 3
  • 에서 기업을 조회할 시, ESG 항목 별 점수 시각화 및 동종 업계 평균등의 데이터를 추가적으로 제공해주는 방식으로 활용할 수 있다.

4-1. 예상 시각화 대시보드

대시보드 기획안 항목별 설명

⇒ 세부내용을 확인하고자 하는 기업 선택

  • 해당기업의 ESG 점수 확인 기능
    • 항목별 점수와 동종업계 점수 평균 확인 가능
  • 관련 뉴스 기사 표출 기능
    • 선택한 기업과 관련된 인터넷 기사를 웹 상에서 수집된 내용을 바탕으로 노출
  • 지속가능경영보고서
    • 선택한 기업의 (지속가능)경영보고서가 공시 되어있을경우 해당 기업의 경영보고서 정보 확인 가능
profile
금융권에 가고싶은 김코다입니다. 취업을 하면 기타치며 조르바처럼 살고파요.

0개의 댓글