Within Effect의 Modeling in OLS Regression

·2025년 2월 16일

모델 비교 및 다층 모델링 접근법

기업의 R&D 투자와 수익성 간의 관계를 분석하는 세 가지 모델을 비교합니다.

  1. 군집(클러스터링)을 무시한 모델
  2. 더미 변수를 사용한 모델
  3. 기업 내 중심화(Within-Firm Centering) 모델

각 모델은 가정과 해석 방식이 다르며, 통계적 특성도 다릅니다.


1. 모델 비교 개요

각 모델은 R&D가 수익성에 미치는 영향을 다르게 추정하며, 기업별 효과와 클러스터링을 처리하는 방식이 다릅니다.

모델 유형추정하는 효과해석R² 의미
클러스터링 무시모집단 평균 효과 (Population Average Effect)기업 간 차이를 고려하지 않음. R&D 투자 정도가 수익성에 미치는 일반적인 효과.R² = 31% → R&D가 기업의 수익성 변동을 어느 정도 설명하는가.
더미 변수 사용기업 내 효과 (Within Effect)더미 변수 활용, 개별 기업 내에서 R&D 투자가 수익성에 미치는 인과적(causal) 효과.R² = 70% → 기업 내 변동(Within-Firm Variation), 문맥적 효과(Contextual Effects), 미관찰 이질성(Unobserved Heterogeneity)이 다 함께 변동을 얼마나 설명하는가.
기업 내 중심화(Within-Firm Centering)기업 내 효과 (Within Effect)더미 변수 모델과 동일한 효과를 추정하지만 접근 방식이 다름. (Centering 활용)R² = 20% → 개별 기업 내에서 R&D가 수익성 변화를 설명하는 정도(Within-Firm Variration).

2. 주요 분석 결과 해석

(1) 회귀 계수(Coefficients) 및 효과(Effects)

  • 모집단 평균 효과 (Population Average Effect, 클러스터링 무시 모델)

    • R&D 계수 = 0.380, 즉 R&D가 수익성에 미치는 전반적인 영향.
    • 기업 간 차이를 고려하지 않은 가중 평균 효과로, 인과적 해석이 어렵다.
    • 기업별 특성을 통제하지 않아 생략 변수 편향(Omitted Variable Bias) 가능성이 있음.
  • 기업 내 효과 (Within Effect, 더미 변수 모델 및 기업 내 중심화 모델)

    • R&D 계수 = -0.418, 즉 개별 기업 내에서 R&D 투자를 증가시킬 때 수익성이 어떻게 변하는지 나타냄.
    • 기업별 차이를 통제하므로, 인과적 해석이 가능하다.
    • 더미 변수 모델과 기업 내 중심화 모델이 동일한 계수를 제공하게 됨.

(2) 모델별 R² 차이

  • 클러스터링 무시 모델 (R² = 31%)

    • 기업 간 차이(기업별 고유 특성)를 고려하지 않고 R&D가 전체 기업의 수익성을 얼마나 설명하는지 나타냄.
    • 기업 간 이질성(Unobserved Heterogeneity) 이 존재할 경우 결과가 편향될 가능성이 있음.
  • 더미 변수 모델 (R² = 70%)

    • 이 모델의 R² 값은 다음 요소들을 포함함:
      1. 기업 내 효과 (Within Effect) → 개별 기업 내에서의 R&D 투자 변화가 수익성에 미치는 영향.
      2. 문맥적 효과 (Contextual Effect) → 기업 수준의 요인이 개별 기업의 R&D 효과에 영향을 미치는가.
      3. 미관찰 이질성 (Unobserved Heterogeneity)
  • 기업 내 중심화 모델 (R² = 20%)
    • 이 모델은 오직 기업 내 변동만을 고려하며, 기업 간 차이를 제거함.
    • 따라서, 개별 기업 내에서 R&D 투자 변화가 수익성 변화에 미치는 영향만을 설명.

(3) 표준 오차(Standard Errors)와 모델 신뢰성

(A) 더미 변수 모델 vs. 기업 내 중심화 모델의 표준 오차 차이

  • 두 모델은 동일한 회귀 계수(-0.418)를 제공하지만, 표준 오차(Standard Errors)가 다름.
  • 더미 변수 모델의 표준 오차 = 0.071, 기업 내 중심화 모델의 표준 오차 = 0.068.
  • 차이 발생 이유:
    • 기업 내 중심화를 적용하면 각 변수(독립, 종속)에서 평균을 빼는 과정에서 오차항(Error Term)의 변동성이 감소하여 표준 오차 추정이 왜곡됨.
    • 결과적으로 기업 내 중심화 모델은 표준 오차를 과소 추정(Underestimate) 하여 비편향성이 깨짐.

(B) 표준 오차가 과소 추정되면 생기는 문제점

  • 표준 오차가 작아지면, 회귀 계수가 유의미하다고 잘못 판단할 가능성이 증가.
  • 이러한 이유로 보통은 종속변수에 대해서는 centering을 하지 않고 독립변수에 대해서만 centering을 함.
  • 해결책: 기업 내 중심화(Within-Firm Centering)를 적용할 경우, 반드시 표준 오차를 보정해야 함.
  • 일반화 최소제곱법(GLS, Generalized Least Squares)과 같은 기법을 활용하면 표준 오차 문제를 해결할 수 있음.

3. 어떤 모델을 선택해야 하는가?

  • 인과적 해석이 필요하다면더미 변수 모델(Fixed Effects Model) 을 사용하는 것이 적절함.
  • 기업 내 변동만을 고려하고 싶다면기업 내 중심화(Within-Firm Centering) 를 사용하되, 표준 오차를 보정해야 함.
  • 전반적인 효과를 보고 싶다면 (비인과적 분석)클러스터링을 무시한 모델을 사용할 수 있지만, 편향 가능성이 있음.

4. 다층 모델링을 위한 추가적인 방법

위의 세 가지 방법 외에도, 보다 발전된 다층 모델링 기법을 사용할 수도 있음.

가정적절한 모델링 기법핵심 특징
랜덤 효과 가정이 성립 (문맥적 효과 없음)랜덤 효과 GLS, MLE, GEE, 클러스터 강건 표준 오차기업별 차이를 확률적으로 처리
문맥적 효과 존재 (랜덤 효과 가정이 깨짐)고정 효과 GLS, 평균 중심화(Cluster Mean Centering), 클러스터 평균을 통제 변수로 추가기업 간 차이를 명시적으로 통제

추가적인 다층 모델링 기법

  1. 랜덤 효과 GLS

    • 기업별 차이를 확률적으로 모델링.
    • 단, 독립 변수와 랜덤 효과가 상관이 없다는 가정을 만족해야 함.
  2. 고정 효과 GLS

    • 모든 기업별 고유 효과를 통제하여 인과적 해석을 가능하게 함.
  3. 클러스터 평균 중심화(Cluster Mean Centering)

    • 개별 기업의 변수를 그 기업의 평균값과 비교하여 측정.
    • 문맥적 효과를 조절할 수 있는 장점이 있음.

출처: https://www.youtube.com/watch?v=7x14Gng5hlE&list=PL6tc6IBlZmOVEofGo-Yz4MpdOp5K8yk_T&index=9

profile
보건대학원 뉴비

0개의 댓글