Correlation, Agreement

beaver.zip·2026년 3월 24일

들어가며

여러 평가자가 동일한 대상을 평가할 때, 그 결과의 신뢰성을 측정하는 지표는 크게 두 범주로 나뉜다.

  • Correlation (상관관계): 점수가 같은 방향으로 움직이는지를 측정
  • Agreement (일치도): 점수의 절대값이 실제로 같은지를 측정

혼동되는 경우가 있지만, 두 지표는 측정하는 것이 다르다.


Correlation (상관관계)

두 평가자의 점수가 함께 변하는 정도를 측정한다.
절대값이 같을 필요 없이, 변화의 방향만 일치하면 된다.

Pearson's r

두 변수 간 선형 관계의 강도를 측정한다. 범위는 -1 ~ +1이다.

e.g., A: [1, 2, 3], B: [2, 4, 6]       → B = 2A, 완벽한 선형 → r = 1.0
e.g., A: [1, 2, 3], B: [2, 5, 4]       → 선형 관계 깨짐     → r < 1
e.g., A: [1, 2, 3], B: [101, 102, 103] → 스케일만 다름      → r = 1.0

비례 관계만 보기 때문에 스케일 차이에 둔감하다.
두 점수 세트의 절대값이 완전히 달라도 r = 1.0이 나올 수 있다.

Spearman's ρ

값 자체가 아닌 순위(rank) 간의 대소 관계를 측정한다.
선형일 필요 없이, "하나가 크면 다른 것도 크다"는 관계만 성립하면 높은 ρ를 얻는다. 범위는 -1 ~ +1이다.

e.g., A: [1, 3, 5], B: [10, 20, 30] → 값 차이는 크지만 순서 동일 → ρ = 1.0
e.g., A: [1, 2, 3], B: [1, 3, 2]    → 2번째와 3번째 순위 역전   → ρ < 1

순위 기반이라 이상치(outlier)에 강건하다.
Pearson's r이 값의 선형 비례를 요구하는 반면, Spearman's ρ는 순서만 보존되면 된다.

Kendall's τ

가능한 모든 관측값 쌍에 대해 순서의 일치/불일치를 세어 비율로 산출한다. 범위는 -1 ~ +1이다.

e.g., A = [1, 2, 3], B = [1, 3, 2]인 경우:
  (1, 2): A에서 1 < 2, B에서 1 < 3 → 일치
  (1, 3): A에서 1 < 3, B에서 1 < 2 → 일치
  (2, 3): A에서 2 < 3, B에서 3 > 2 → 불일치
  → τ = (2 − 1) / 3 ≈ 0.33

쌍 단위 비교이므로 Spearman's ρ보다 보수적이다. 동일 데이터에서 일반적으로 |τ| ≤ |ρ|이 성립한다.

정리

지표비교 대상관계 유형이상치 민감도
Pearson's r값 자체선형높음
Spearman's ρ순위대소 관계 (순서 보존)낮음
Kendall's τ쌍의 순서순위 일치율낮음


Agreement (일치도)

여러 평가자가 동일한 대상에 대해 실제로 같은 점수를 부여하는지를 측정한다. Correlation과 달리, 점수의 절대값이 같아야 한다.

아래 지표들은 모두 우연에 의한 일치를 보정한다는 공통점이 있다. 이진 분류에서 두 평가자가 무작위로 응답해도 약 50%는 우연히 일치할 수 있는데, 단순 일치율(percent agreement)은 이를 구분하지 못한다. κ나 α 계열은 이 우연적 일치를 제거한다.

Cohen's κ

2명의 평가자가 범주형 레이블을 부여할 때의 일치도를 측정한다.

κ=pope1pe\kappa = \frac{p_o - p_e}{1 - p_e}

  • pop_o: 관찰된 일치 비율
  • pep_e: 우연에 의해 기대되는 일치 비율
  • 분자: 우연을 넘어선 실제 일치
  • 분모: 우연을 넘어서 일치할 수 있는 최대 여지
e.g., 두 의사가 50명의 환자를 "우울증 / 비우울증"으로 분류한다.
  - 40명에 대해 같은 진단 → p_o = 0.80
  - p_e = 0.50인 경우 → κ = (0.80 − 0.50) / (1 − 0.50) = 0.60
  - p_e = 0.64인 경우 → κ = (0.80 − 0.64) / (1 − 0.64) ≈ 0.44
  → 같은 80% 일치율이어도, 우연의 기댓값이 높을수록 κ는 낮아진다.

해석 기준 (Landis & Koch, 1977):

κ 범위해석
≤ 0일치 없음 (Poor)
0.01 – 0.20미미 (Slight)
0.21 – 0.40보통 (Fair)
0.41 – 0.60중간 (Moderate)
0.61 – 0.80상당 (Substantial)
0.81 – 1.00거의 완벽 (Almost Perfect)

※ 이 기준은 근거 없이 제안된 것이므로 참고용으로만 사용한다.

제한:

  • 2명의 평가자에 대해서만 정의된다.
  • 순서형 데이터에서 1점 차이와 4점 차이를 동일한 불일치로 처리한다. → 이를 보완한 Weighted Cohen's κ가 있다.

Fleiss' κ

Cohen's κ의 "2명 한정" 제약을 해결한 지표로, 3명 이상의 평가자에 대한 범주형 일치도를 측정한다.

e.g., 14명의 정신과 의사가 30명의 환자를 5가지 진단 범주로 분류할 때,
     14명 전체의 일치도를 하나의 수치로 요약할 수 있다.

이름 때문에 Cohen's κ의 다중 평가자 버전처럼 보이지만, 실제로는 Scott's π의 일반화이다.

  • Cohen's κ: 각 평가자의 개별 레이블 분포를 고려하여 pep_e를 계산
  • Fleiss' κ: 전체 평가자의 평균 분포로 pep_e를 추정

Krippendorff's α

κ 계열의 제약들을 한 번에 해결한 범용 지표이다.

α=1DoDe\alpha = 1 - \frac{D_o}{D_e}

  • DoD_o: 관찰된 불일치
  • DeD_e: 기대 불일치
  • α = 1이면 완벽한 일치, α = 0이면 우연 수준, α < 0이면 체계적 불일치

κ 계열이 일치(agreement) 기반인 것과 달리, α는 불일치(disagreement) 기반으로 계산한다.

κ 계열 대비 장점:

  • 평가자 수에 제한 없음
  • 결측치 처리 가능 (모든 평가자가 모든 항목을 평가하지 않아도 됨)
  • 명목형, 순서형, 등간형, 비율형 등 다양한 측정 수준에 적용 가능

해석 기준:

α 범위해석
α ≥ 0.800신뢰할 수 있는 수준
0.667 ≤ α < 0.800잠정적 결론 가능
α < 0.667신뢰하기 어려움

정리

지표평가자 수데이터 유형결측치 처리우연 보정
Cohen's κ2명명목형 (Weighted κ로 순서형 확장)
Fleiss' κ3명 이상명목형
Krippendorff's α2명 이상명목/순서/등간/비율


Correlation != Agreement

세 평가자가 동일한 3개 대상을 평가한 결과이다.

대상평가자 A평가자 B평가자 C
#1135
#2246
#3357

  • 세 평가자 모두 #1 < #2 < #3의 순서를 매기고 있다. → Spearman ρ = 1.0
  • 대상 #1에 대해 A는 1점, B는 3점, C는 5점이다. → Krippendorff α는 매우 낮음

Correlation은 높지만 Agreement 낮은 경우로, Corrleation과 Agreement는 서로 다른 지표임을 보여준다.


참고 자료

  • Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20(1), 37-46.
  • Fleiss, J. L. (1971). Measuring Nominal Scale Agreement Among Many Raters. Psychological Bulletin, 76(5), 378-382.
  • Landis, J. R. & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159-174.
  • Krippendorff, K. (2004). Content Analysis: An Introduction to Its Methodology (2nd ed.). Sage Publications.
profile
LLM Safety 일짱이 되겠다.

0개의 댓글