[데이터 분석과 비판적 사고]을 읽고- 불연속 회귀 설계

Sooyeon·2024년 4월 2일
0

정리하며 읽기

목록 보기
46/50
post-thumbnail

[데이터 분석과 비판적 사고]을 읽고 -불연속 회귀 설계


불연속 회귀 설계

  • 실험 실행이 불가능한 경우에도 인과적 효과를 편향되지 않게 추정할 수 있는 특별한 상황이 있다.
    => 주목하는 조치가 알려진 문턱값에서 불연속적으로 변하는 경우
  • 불연속 회귀 설계는 조치가 변하는 문턱값 근처에 있는 실험 대상의 국지적 평균 조치 효과를 추정한다.

  • 조치 할당: 온전히 어떤 제 3의 변수로 결정하며, 이를 배정 변수라고 부른다.
ex)어떤 대상의 배정 변수가 어떤 문턱값보다 높으면 그 대상은 조치를 받고, 
배정 변수가 문턱값보다 낮으면 조치를 받지 않는다. 
  • 문턱값에 이르러 조치가 있는 경우와 없는 경우의 결과 기댓값을 추정하게 된다.
    적어도 배정 변수가 정확히 문턱값에 오는 대상에게 있어서는 이 두 값의 차이가
    조치 효과의 적정 추정치다.
=> 배정 변수의 값이 문턱값 양쪽에서 문턱값에 매우 가까운 대상들을 비교해서, 
이 추정치를 얻는다. 
ex) 949점과 950점을 비교해서 장학급 수혜 효과를 파악하는 방법의 근간이 되는 발상 

=> 그러나 이보다 좀 더 나은 방법도 있다.

- 결과를 배정 변수에 두 번 회귀를 수행하는데,한 번은 문턱값 아래에 있는 미조치 대상으로,
또 한 번은 문턱값 위에 있는 조치 대상으로 수행한다. 

=> 그런 다음 이 두 회귀결과로 문턱값에서 조치가 있을 때와 없을 때의 결과를 예측한다. 

=> 이 예측으로 배정 변수가 문턱값을 넘는 순간에 `결과의 도약` 또는 `불연속성`을 추정할 수 있다. 

=> 이 불연속성이 바로 문턱값에 있는 대상에 있어서 `조치의 인과적 효과 추정`이 된다.   
=> 이러한 전략을 `불연속 회귀 설계`라고 부른다. 
  • 불연속 회귀의 추정 대상은 배정 변수가 정확히 문턱값에 오는 대상의 평균 조치 효과다.
    => 이 추정 대상을 국지적 평균 조치 효과로 본다.
=> 국지적 평균 조치 효과는 모집단의 전체 평균 조치 효과와 다를 여지가 있다. 
=> 그러므로, 불연속 회귀 설계를 활용할 때는 추정한 수치가 정말로 원하는 대상인지 잘 생각해야 한다.

불연속 회귀 설계의 구현 방법
분석가가 불연속 회귀 설계를 구현하는 여러 방법이 있으며,각각 장단점이 있다.

1.단순 접근법 
문턱값 양쪽에 오는 배정 변수의 작은 구간에서 단순히 평균 결과를 비교하는 방법 
ex) 950점에서 954점 사이에 오는 지원자와 945점에서 949점 사이에 오는 지원자의 평균 소득을 비교하는 것

장점: 단순하다
단점: 단순한만큼 편향된 추정치를 내놓는다고 봐도 좋다. 
=> 배정 변수는 대체로 잠재적 결과와 상관관계가 있기때문에 문턱값 바로 위와 바로 아래 집단 사이에는 
항상 차이 기준치가 있을 것이다. 
=>비교하는 빈의 크기가 줄어들면 편향도 줄어들지만,결코 사라지지는 않는다. 


2.국지적 선형 접근법 
단순 접근법에 비해 편향이 적을 가능성이 있는 방법이다. 
이 방법도 너비를 정하고,그 안에 들어오는 관찰값을 사용해서 문턱값 양쪽에서 개별적으로 결과와
배정 변수의 선형 회귀를 수행한다. 
=> 이 추정치로 문턱값 지점에서 조치가 있을 때와 없을 때의 결과를 예측하며, 
예측한 두 결과의 차이로 문턱값에 오는 대상의 조치 효과를 예측한다. 

장점: 배정 변수와 결과 사이에 어떤 관계가 있어도 괜찮고, 이 관계가 문턱값 양쪽에서 
서로 달라도 괜찮으며, 선형관계에 가깝다고 가정한다. 


회귀를 두 번 수행하는 대신 한 번만 수행해서 국지적 선형 접근법을 구현하는 방법이 있다. 
첫째, 배정 변수를 조정해서 문턱값이 0에 오도록 반든다.(배정 변수에서 문턱값을 뺀다.)
둘째, 관찰값이 문턱값보다 큰지 작은지를 가리키는 조치 변수를 만든다. 
셋째, 조치 변수에 조정한 배정 변수를 곱해서 `교호 변수`를 하나 만든다. 
마지막으로, 선택한 너비 안에 있는 관찰값을 사용해서 결과를 조치와 조정한 배정 변수와 
그 둘의 교호작용으로 회귀시킨다. 
회귀에서 추정한 조치 계수가 불연속성의 추정치를 알려 준다. 


3.다항 회귀
결과를 조치와 배정 변수와 고차원 다항식에 회귀시킨다. 
=> 이는 배정 변수와 결과 사이에 비선형관계가 있을 가능성을 고려한 방법
단점: 문턱값에서 멀리 떨어진 데이터가 불연속성 추정에 큰 영향을 미칠 위험이 있다. 
  • 어떤 결정은 관련 지식과 우리가 생각하는 배정 변수와 결과 사이의 관계는 물론이고,
    정밀도를 높이고자 얼마만큼 편향을 허용할지 또는 반대로 편향을 줄이고자 얼마만큼 정밀도를
    희생할지 등에 좌우된다.
=> 최선의 방법은 이론,관련 지식,데이터 분석을 결합해서 선택을 합리화하고, 
서로 다른 실험 명세에서 얻은 결과를 보여 주는 방법이다. 
=> 추정치가 서로 다른 너비와 실험 명세에 걸쳐서 안정적으로 나타난다면, 결과에 신뢰성을 더한다.
=> 반면 특정 명세서에서만 결과가 유효하다면 회의적으로 바라볼 수 밖에 없다. 

문턱값 지점의 연속성

  • 불연속 회귀 방식이 인과관계를 편향 없이 추정하려면, 조치 상태는 문턱값 지점에서 급격히 변화되 결과에 영향을 미치는 다른 요소는 변하지 않아야 한다.
근본 특성조차 문턱값에서 불연속적으로 변하면 문턱값 근처에 나타나는 평균 결과의 차이는 조치의 변화가 아니라, 
이런 근본 특성의 변화로 인해 생길지도 모른다.

=> 즉 조치 대상과 미조치 대상은 조치 상태 이외의 차별점이 존재하므로,정확히 문턱값에서조차 
이들의 비교는 더이상 제대로 된 비교가 아니게 된다. 

그러나,배정 변수가 문턱값을 지나면서 대상의 평균적인 근본 특성이 연속적으로 바뀐다면 
배정 변수의 값이 딱 문턱값에 오는 대상의 조치 효과를 편향 없이 추정 할 수 있다. 

(문턱값 양쪽이 대상을 평균적으로 구분 짓는 유일한 요소가 바로 조치 상태이기 때문이다.)

=> 근본 특성이 문턱값에서 돌변하지 않는다는 요건을 문턱값 지점의 연속성이라고 부른다.

  • 연속성이 중요한 이유
    연속성이 지켜지면 문턱값 지점에서 미조치 대상과 조치 대상의 차이가
    국지적 평균 조치 효과가 된다.
  • 연속성 요건
    1.반드시 조치를 무작위 할당할 필요는 없다.
    2.결과가 배정 변수와 상관관계가 있어도 무방하다.
    3.관찰 대상이 자신의 배정 변수를 제어할 필요나,대상이 문턱값에 관해 몰라야 할 필요도 없다.
뭐가 잘못돼서 연속성이 깨질까?
- 관찰 대상이 자신의 배정 변수를 지극히 정교하게 제어해서,어떤 유형의 대상이 
문턱값 바로 위나 아래에 몰린다고 가정하다. 

=> 문턱값 위에 있는 사람과 아래에 있는 사람을 비교하기 어렵다. 
=> 결과에 영향을 주는 다른 근본 특성을 기준으로 문턱값 주변에서 정리가 됐을 것이다. 
=> 불연속 회귀는 인과적 효과의 편향되지 않은 추정치를 주지 못한다. 
  • 불연속 회귀 결과를 인과관계의 편향 없는 추정으로 해석하기 전에 연속성 가정
    타당한지부터 판단해야 한다.
[연속성이 깨질 가능성을 파악하는 최선의 방법]

1.주어진 상황의 세부 사항을 잘 파악해서 문턱값 주변의 정리,조작,그 밖의 변화 가능성을 예의 주시
2.측정 가능한 조치 전 특성을 살펴보고,이들이 문턱값에서 불연속적으로 변하는지 판단 
(많은 측정 가능한 특성이 문턱값에서 연속적으로 변한다면,
측정 불가능한 다른 근본 특성 역시 연속적이라고 자신 해도 좋다.)
3.배정 변수 자체의 분포를 살펴본다.
(만일 문턱값 바로 위에 오는 대상이 바로 아래 오는 대상보다 많거나 그 반대라면 
어떤 조작이 개입해서 연속성을 깨뜨렸을 가능성을 우려할 만하다.)
  • 연속성 위반이 정확히 얼마나 악영향이 있는지는 문제의 세부 사항에 달렸다.
- 정리된 정도가 약하거나,근본 특성의 불연속적인 변화가 작다면 
=> 불연속 회귀의 결과는 편향되겠지만 그 정도는 사소하다. 

- 데이터가 풍부해서 연구자가 문턱값에 아주 가까운 대상에만 집중해도 된다면 
=> 아주 정확히 정리돼야만 결과에 영향을 미친다. 

불응과 흐릿한 불연속 회귀

  • 조치 여부가 순전히 배정 변수문턱값 만으로 결정되는 상황의 불연속 회귀 설계
    => 이는 선명한 불연속 회귀 설계라고 한다.
  • 그러나 조치가 배정 변수가 문턱값의 어느 쪽에 오느냐에 따라 불연속적으로 영향을 받더라도
    순응자,미사용자도 있고 항상 사용자도 있다.
    => 이러한 불응자가 있으면 도구 변수 접근법불연속 회귀에 결합해야 한다.
=> 이 방법은 배정 변수가 문턱값 어느 쪽에 오느냐를 조치 할당의 도구 변수로 사용한다. 

[도구 변수의 조건]
1.외생성
도구 변수는 무작위 할당이 되거나, 적어도 `그렇게 보여`서 첫 단계 효과와 축약형 효과를 
편향 없이 추정하도록 만들어야 한다. 
2.배제 제약 
축약형 효과는 모두 조치를 통해 일어나야 한다.
=> 도구 변수가 조치에 주는 효과 이외에는 달리 결과에 영향을 주는 통로가 없어야 한다. 
3.순응자
도구 변수의 결과로 서로 다른 조치 상태에 놓이는 대상이 있어야 한다. 
4.거부자 없음 
첫 단계 효과의 부호가 무엇이든 간에 도구 변수가 반대 방향으로 조치에 영향을 미치는 
대상이 없어야 한다. 

외생성 => 불연속 회귀 전반을 가로지르는 요소이다. 
(만일 잠재적 결과가 문턱값에서 연속적으로 변한다면, 불연속 회귀로 첫 단계 효과와 축약형 효과,
두가지를 편향 없이 추정하게 된다. 
배제 제약 요건 => 결과에 미치는 영향 이외에 다른 방식으로 영향을 미치지 않아야 한다. 

=> 이 방법을 흐릿한 불연속 회귀 설계라고 부른다.

0개의 댓글