AIB Section2. n234 interpreting-ml-model (03/15)

Seo_Gury·2022년 3월 27일

AIB 12기

목록 보기
15/16
post-thumbnail
  1. PDP(Partial dependence plot)
  2. Shap

1. PDP(Partial dependence plot)

  • PDP는 각 특성이 타겟에 미치는 영향을 확인할 수 있는 지표이다.
    • 중요도보다 좀 더 직관적으로 타겟과의 관계를 알 수 있다.
    • 성능이 아닌 타겟에 대한 영향이다.
    • ICE 커브 (관측치 하나하나를 표현한 선) → 평균을 내면 PDP
    • 선형회귀모형일 경우 항상 직선으로 나온다.
  • 특성중요도나 순열중요도의 경우 전체의 특성이 모델 성능에 얼마나 중요하게 쓰이는가를 알 수 있는 지표이다.(타겟에 직접 영향X)
  • 단점 : 하나에서 두 개의 특성만을 사용하여 타겟에 미치는 영향을 알 수 있으므로 전체적인 특성을 알아보기 위해서는 시간이 많이 든다.

2. Shap

  • 단일 관측치로부터 특성들의 기여도(feature attribution)를 계산
  • Summary를 활용하여 전체적으로 볼 수 있다.

3. 회고

개인적으로 파트가 가장 재밌었다. 가장 분석적인 파트이기 때문이다. 데이터를 가공하는 과정도 은근히 재밌지만 역시 분석하는 파트가 가장 재미있다. 나는 철학과를 나와서 그런지 뭔가 정의 내리는 것을 좋아했던 것이 이러한 흥미에 영향을 준 듯하다. 정의 내릴 수 있는 것은 거의 없겠지만 어느정도 영향을 줄 수 있는 것들이 많다는 것이 참으로 신기하다. 나는 몰랐던 특성이 내가 알고 싶은 것에 영향을 준다는 사실을 봤을 때만큼 재밌는게 없는 듯하다. 또한, 이건 영향이 클거라고 생각했는데 없는 것도 재밌다.
하지만 아직 내가 원하는 분야를 제대로 모르겠다. 게임에도 관심이 있고 축구에도 관심이 많다. 좀 더 도메인 지식을 늘려야하는데 아직 확실히 정해지지 않아서 애매하다. 그래서 일단은 기본적인 것에 집중할려고 한다. 그리고 사회적인 부분도 재밌을 것같다. 한 번 해보고 싶다.
나의 미래를 그리며 항상 목표를 향해 화살을 쏘자!🚀🚀

profile
미래의 데이터 분석가~@

0개의 댓글