[데이터 분석과 비판적 사고]을 읽고- 어째서 상관관계는 인과관계를 내포하지 않는가
어째서 상관관계는 인과관계를 내포하지 않는가
- 상관관계가 반드시 인과관계를 내포하지는 않는다.
- 관찰한 상관관계가 인과관계의 편향된 추정치가 될 두 가지 이유가 있다.
(교란 변수와 역인과관계다)- 교란 변수와 기작 사이에는 중요한 차이가 있다.
잠재적 결과를 명확하게 이해하기
[평균 조치 효과 / ATE] 조치 집단의 평균 조치 효과와 미조치 집단의 평균 조치 효과의 가중 평균 (ATT와 ATU는 근본적으로 관찰 불가) 표본 평균의 차이 (추정치) =ATT + 편향 + 잡음 반사실적 세계에서도 두 집단의 평균이 다르다고 하면, 이 비교에는 편향이 존재한다. => 이 경우, 두 집단 사이에는 '차이 기준치'가 있다고 말한다.
편향의 근원
- 상관관계 해석에 적절히 주의를 기울이려면, 체계적 차이 기준치가 언제 발생하는지
명확히 이해해야 한다, 바로 이 차이 기준치가 편향을 만들기 때문이다.
=> 주요한 두가지 근원은교란 변수
와역인과관계
다.
- 어떤 상관관계가 인과관계의 증거인지 여부를 판단하려면, 먼저 교란 변수는 없는지 살펴야 한다.
[교란 변수] 두가지 조건을 충족하는 특성이 있다. 1.조치 상태에 어떤 영향(효과)를 준다. 2.조치 상태에 준 영향을 통해 나타난 효과 외에도 결과에 어떤 다른 영향을 준다. 교란 변수는 차이 기준치를 만들어 내고, 따라서 '편향'도 만들어 낸다. [역인과관계] 결과가 조치 상태에 영향을 미치면 역인과관계가 성립한다. 역인과관계는 차이 기준치를 유발하는데, 그 이유는 어떤 결과가 대상의 조치 여부에 영향을 미치면 조치 집단과 미조치 집단 사이에서 조치 효과에서 기인하지 않은 결과 차이가 일관되게 생길 것이기 때문이다.
교란 변수와 역인과관계는 어떻게 다른가?
- 교란 변수와 역인과관계를 생각할 때는 이들이 서로 어떻게 연관이 있는지 생각해 보면 좋다.
- 역인과관계로 바라볼지 교란 변수로 바라볼지는 그다지 중요하지 않다.
=> 정말 중요한 것은, 상관관계에서 교란 변수나 역인관관계로 나타나는 차이 기준치를 따지고,
실제로 차이 기준치가 있다면 상관관계가 인과관계를 내포한다는 해석을 내리기 전에 주의를 기울이는 것이다.편향의 방향(부호) 정하기
- 교란 변수나 역인과관계가 존재하면 조치와 결과의 상관관계는 실제 인과관계의 편향 없는 추정치라고 볼 수 없다.
다만,상관관계가 인과적 효과의 과대 또는 과소추정인지 판단함으로써 인과관계에 관해
파악하는 경우도 있다.관찰한 상관관계 (추정치) = 실제 인과적 효과 (추정 대상) +편향+잡음
- 편향이 양의 값을 가진다고 믿을 만한 이유가 있다면, 관찰한 상관관계는 수행한 조치의
실제 인과적 효과의과대추정
이다.
=> 양의 상관관계를 관찰했다고 해서,수행한 조치가 어떤 영향을 미친다고 확신하기 어렵다는 뜻이다.- 편향이 음의 값이라고 믿을 만한 이유가 있다면,관찰한 상관관계는 수행한 조치의 실제 인과적
효과의과소추정
이다.[교란변수 사례] 어떤 교란 변수가 조치와 결과에 (음이든 양이든) 같은 방향의 효과를 준다면, 이 교란 변수를 고려하지 않고 추정하면 양의 값인 편향이 발생한다. =>과대추정 어떤 교란 변수가 초지와 결과에 다른 방향으로 영향을 미친다면, 이 교란 변수는 음의 값을 갖는 편향을 일으킨다. => 과소추정 [역인과관계 사례] 결과가 조치에 긍정적인 효과를 준다면 편향은 양의 값이 된다. =>관찰한 상관관계가 실제 인과적 효과의 과대추정이라는 뜻이다. 결과가 조치에 부정적인 효과를 준다면 편향은 음의 값이 된다. =ㅋ> 이는 관찰한 상관관계는 과소추정이 된다.
- 잠재적으로 편향된 상관관계로부터 인과적 효과를 파악하는 방법은
거꾸로 살펴보기
이다.
=>편향의 크기를 추측해서 효과가 얼마나 큰지 추론하는 대신,
실제 효과가 전혀 없다고 가정한 상태에서 어떤 상관관계를 관찰하려면 편향이 얼마나 커야하는지 묻는 방식이다. => 이런 분석 방식을 흔히민감도 분석
이라고 부른다.
- 어떤 조치가 긍정적인 효과가 있더라도 교란 변수나 역인과관계가 부정적인 편향을 만들기도 한다.
=>이로 인해 조치 효과는 양의 값이더라도 관찰한 상관관계는 크기가 작너아 아예 없거나 심지어 음의 값이 될 수 있다.
=>그러므로, 인과관계 역시 상관관계를 내포하지는 않는다.기작 대 교란 변수
- 조치가 결과에 영향을 미치는 기작을 교란 변수와 혼동하는 경우가 있다.
- 기작(매개자)
조치로부터 영향받는 어떤 특성이자,동시에 그 자신이 결과에 영향을 미친다.
=> 기작은 교란 변수가 아니라 조치가 결과에 영향을 미치는 하나의 수단이다.교란 변수 => '조치 전 공변량' (조치가 행해지기 이전에ㅐ 조치와 결과에 연관된 변수로 기술) 기작=> '조치 후 공변량' (조치가 행해진 다음에 조치와 결과에 연관된 변수로 기술 )
편향과 잡음에 관해 명확하게 사고하기
- 상관관계를 보여 주고 이를 인과관계의 추정치로 해석하는 경우 던져야 하는 질문
첫째, 실제로 상관관계를 관찰하는가? 단지 관찰하려는 결과가 일어난 경우나,항상 조치된 사례만 살펴보지 않았는지 확인해야 한다. 둘째,추정한 상관관계가 실제 관계를 반영하는가? ex) 100명의 표본에서 땅콩버터 소비와 맹장염의 관련성을 보였다고 하자. 이 표본에서 땅콩버터를 많이 먹은 사람일수록 맹장염에 걸릴 가능성이 높다. => 상관관계가 없음을 뜻하는 귀무가설과 통계적으로 구분할 만한가? 왜 데이터가 100명만 있는가? 이 특정한 상관관계를 측정하려는 목적으로 데이터를 모았는가? 아무런 상관관계를 발견하지 못했어도 이야기했을까? (p-해킹이나 p-검열이 걱정된다면 더 큰 모집단에서 땅콩버터와 맹장염 사이에 진짜로 상관관계가 있을지에 관해 회의적일 것이고, 독자적으로 데이터를 모아서 새로운 표본에도 같은 상관관계가 나타나는지 확인하고 싶을것이다.) => 만약 나타나지 않는다면 실제 추정 대상은 0이며,100명 표본에서 발견한 양의 상관관계는 잡음으로 발생한 결과라고 봐야 한다. 셋째,이 상관관계가 인과관계의 확실한 증거인가? 즉 교란 변수나 역인과관계 때문에 추정한 상관관계가 실제 인과관계로부터 편향되지는 않는지 물어봐야 한다.
어떤 상관관계가 교란 변수나 역인과관계로 인해 인과관계를 편향되게 추정하는 경우가 종종 있다
=> 이것이 바로상관관계가 인과관계를 내포하지 않는다는 말의 의미