오늘 배운 내용은 인과성과 기계학습!
특정 변수나 행동이 다른 변수나 결과에 미치는 영향
상관관계는 한 변수가 변할 때 다른 변수도 함께 변하는 경향.
반면 인과성은 한 변수가 다른 변수의 변화를 직접적으로 유발
하는 경우
ex) 아이스크림 판매량과 익사사고는 상관관계가 있지만 인과성은 없다. 단지 여름이라는 공통원인
Condition, Treatement, Outcome
을 변수로 두고 추천시스템에서도 사용할 수 있다.
Simpson’s paradox(심슨 역설)
데이터를 그룹별로 나누었을 때와 전체 데이터를 통합해서 분석했을 때 서로 상반된 결론이 도출될 수 있다.
베이즈 정리
이미지 출처 : ss-hj
확률 변수를 노드로 표현하고, 노드간 인과 관계(Causation)를 간선으로 표현하는 Directed Acyclic Graph(DAG, 방향성있고 사이클 없는 그래프)
노드가 색칠되어 있으면 관측이 된 변수다. = 조건으로 주어진 변수, 이미 결정되어있는 변수
베이즈볼 알고리즘은 베이지안 네트워크 내에서 두 변수간 조건부 독립성을 확인하는 방법이다. 목적은 두 변수사이에 정보가 전달될 수 있는지 확인하는 것이다.
기본적으로는 독립이 아니어야 공이 굴러간다(=종속적. 변수간 정보가 전달된다).
즉, 독립이면 공이 굴러가다가 막힌다!!
전체 베이지안 네트워크 그래프에서 공이 어디까지 굴러가는지 보고 정보 전달이 어디까지 가나 확인할 수 있다.
이미지 출처 : tjdqja0508
가질 수 있는 3가지 구조
chain : x->y->z. y가 관측(색칠)되어야 x,z가 독립 / 다 색칠 안되면 종속
fork : x<-y->z. y가 관측(색칠)되어야 x,z가 독립 / 다 색칠 안되면 종속
immorality(v, colider): x->y<-z. 반대로 y가 관측(색칠)되지 않아야 x,z가 독립
y가 색칠 되어야만 종속
순수하게 treatment에서 outcome의 인과성을 추정하기 어려운 까닭은 condition에 따라서 treatement가 달라지기 때문이다.
Confounder : 교란 변수. treatment과 Outcome 변수 사이에 작용되어 인과적 경로를 방해하거나 왜곡할 수 있는 경로를 만든다(Back-door path).
예를들어 흡연(t)과 폐암발생(O)의 인과관계 분석중 둘에게 영향을 끼치는 제3의 변수인 나이, 유전요인 같은 것이 Confounder다.
이를 차단해야 순수한 인과적 영향을 분석할 수 있다.
Back-door adjustment
Confounder를 차단해서 T와 O간의 인과 관계를 제대로 계산할 수 있게하는 방법.
방법이 있지만 condition에서 treatment를 선택하는 비율을 matching하고 weighting하면 차단할 수 있다.
ATE : 평균 처치(treatment) 평가
ATE = E[Y(1)] − E[Y(0)]
: T를 받은 경우와 받지 않은 경우의 결과 차이의 평균
CATE : Conditional ATE. 조건부 평균 처치 효과
특정 조건이나 특성에 따라 처치가 결과에 미치는 평균적인 인과 효과를 평가하는 지표
ATE보다 좀 더 personalized되었다. ATE가 0이라도 CATE는 0이 아닐 수 있다.
X는 머신러닝 네트워크의 input으로도 볼 수 있다.
CATE = E[Y(1)−Y(0)|X] = E[Y(1)|X] − E[Y(0)|X]
Indirect/plug-in learner(S,T Learner), Two-step Learner(RA, PW, DR Learner)
assaeunji 블로그 참고
T-Net
처치 효과 추정(ITE)을 위해 설계된 신경망 구조
처치(treatment) 여부에 따라 두 개의 분리된 네트워크가 학습된다
S-Net
처치 선택 편향(Selection Bias)을 보정하기 위해 설계된 신경망 구조
처치 선택 과정을 모델링하여, 처치 효과 추정에서 발생할 수 있는 편향을 줄이는 역할을 한다.
이를 통해 보다 공정하게 처치 효과를 추정할 수 있다.
지금까지 배웠던 내용들에 대해 실제 프로젝트에서 어떤 상황에서 쓰는 기법인지 정리를 하면 좋을 것 같다는 의견이 있어 이 내용들을 금요일에 만나서 정리해보려 한다.
오늘 배웠던 인과성 내용에 대해서 서로 이해했던 내용들을 토의했다.