[데이터 분석과 비판적 사고]을 읽고- 교란 변수 통제

Sooyeon·2024년 2월 28일
0

정리하며 읽기

목록 보기
44/50
post-thumbnail

[데이터 분석과 비판적 사고]을 읽고- 교란 변수 통제


교란 변수 통제

  • 교란 변수를 관찰하면 이를 통제해서 편향을 줄일 수 있다.
  • 교란 변수를 통제하는 여러 방법이 있지만,회귀에 포함시키는 방법이 가장 널리 쓰인다.
  • 통제는 마법이 아니다.관찰하지 않은 교란 변수나 역인과관계로부터 발생하는 편향을
    완전히 없애지는 못한다.
  • 교란 변수는 통제해야 하지만 기작은 통제하지 않는다.

통제란?
통계적 기법을 사용해서,두 변수 사이의 상관관계를 찾는 과정에서 다른 변수들의 값을 고정하는 방법이다.

  • 교란 변수 목록이 늘어나면 가능한 모든 경우를 쪼개서 표를 만들기란 어렵고,다루기 불편하다.
    잠재적 교란 변수를 측정하기만 한다면 회귀 분석에서 통제할 수 있다.
    => 가중 평균을 반영해서 각 영역의 오차 제곱의 합을 최소화하는 추정치를 얻을 것이다.

  • 통제를 할때는 이질성을 명확히 이해해야 한다.
    교란 변수를 통제하기 시작하면 더이상 모든 대상에 걸친 평균 조치 효과를 추정하지 않기 때문이다.
    ex)앞선 사례에서 이념을 통제하면서,정당과 투표의 관계를 추정하려면
    중도 성향을 지닌 의원들에게 가중치를 더줘야 한다.
    왜냐면 극단적인 이념을 지닌 의원에게는 변이가 적기 때문이다.

  • 어떤 경우는 추정 대상으로서 평균 조치 효과를 추정하는 대신
    국지적 평균 조치 효과만 추정한다고 설명할텐데,
    여기서 국지적이라는 표현은 분석 대상에서 믿을 만한 추정치를 구할 수 있는 하위 집합을 뜻한다

  • 조치 효과가 전체 대상에서 이질적으로 일어나면
    평균 조치 효과(ATE)와 국지적 평균 조치 효과 (LATE)가 같을 필요는 없다.
    =>그러므로 정말로 알고 싶은 추정 대상이 ATE라면 LATE 의 추정치가 ATE를 얼마나 잘 나타내는지 명확히 알아야 한다.

회귀 파헤치기
인과 추론에 있어서,어떤 회귀든 다음 핵심 요소가 있다.

- 종속 변수
- 조치 변수
- 일련의 통제 변수 
  • 종속 변수: 파악하려는 결과
  • 조치 변수: 추정하려는 종속 변수에 영향을 주는 특성
  • 통제 변수:편향을 줄이고자 회귀에 포함시키는 잠재적 교란 변수

Y=aa+β\beta TT + yy XX+ e
Y=종속 변수
T=조치 변수
X=통제 변수
α\alpha=회귀 매개 변수 (추정하려는 수치)는 절편
β\beta=조치 효과
yy=통제 변수의 효과
e=오차항
=> 여기서 중요한것은, β\beta가 관심 대상의 효과이며,
우리는 이를 편향없이 추정하려고 한다는 점이다.

  • 데이터 생성 과정이 어찌됐건 최소제곱법 회귀는 항상
    조건부 기대 함수에 대한 최선의 선형 근사를 제시한다.

회귀에서 어떻게 통제하나?

  • X가 T와 상관관계가 있고, 이와 별개로 Y와도 연관이 있으면
    X를 통제할 때, T와 Y의 관계 추정치가 바뀐다.

통제와 인과관계

  • 통제를 하면 특정 교란 변수를 측정하고 회귀에 포함시켜서 이로부터 발생하는 편향을 줄이거나
    아예 없앨 수 있지만,여전히 대부분의 경우에서 통제만으로 인과관계의 편향 없는 추정치를 얻으리라고 기대하지 않는다.
  • 어떤 상관관계가 인과적 효과의 편향 없는 추정이라고 해석하려면,
    조치 대상과 미조치 대상 사이에서 차이 기준치가 없음을 확신해야 한다.

회귀 표 읽기

  • 회귀 수행의 목표는 종속의 변이를 예측하거나 모델링 하는 것이 아니다
    =>핵심 조치 변수가 결과에 영향이 있는지 여부를 파악하는 것이다.
    => 이 목표를 위해서 관심을 가질 대상은 조치 변수의 계수 추정이다.

교란 변수 통제 대 기작

  • 관찰 불가능한 교란 변수를 관찰 가능하게 만들 재주는 없다.
    => 이 말의 뜻을 알아보고자 매칭이라고 부르는 통계적 기법을 살펴보자 .
[매칭]
상황 : 통제하려는 어떤 연속적인 변수 X가 있다고 가정하자. 

조치 집단의 각 대상을 미조치 집단에서 X의 값이 가장 가까운
대상으로 매칭한다. 
그런 다음,이 매칭된 데이터로부터 평균 차이를 계산해서 
T가 Y에 미치는 효과를 추정한다. 
=> 이를 `최근접 이웃 매칭`이라고 부른다. 

장점
통제 변수가 좀 더 다양한 방식으로 결과에 영향을 
미치더라도 대응할 수 있다. 

단점
1.회귀보다 적은 양의 정보를 사용하기 때문에 종종 정밀도가 
낮은 경우가 생긴다. 
2.조치된 관찰값에 대한 최적 매칭의 X는 
만약 X가 T와 양의 상관관계가 있다면 그 값이 더 높으리라
기대하기 때문에 매칭에 의한 추정은 편향될 여지가 있다.

[회귀와 차이점]
관찰한 변수를 통제하는가 (회귀)
매칭된 변수를 통제하는가 (매칭)

0개의 댓글