여러 평가자가 동일한 대상을 평가할 때, 그 결과의 신뢰성을 측정하는 지표는 크게 두 범주로 나뉜다.
혼동되는 경우가 있지만, 두 지표는 측정하는 것이 다르다.
두 평가자의 점수가 함께 변하는 정도를 측정한다.
절대값이 같을 필요 없이, 변화의 방향만 일치하면 된다.
두 변수 간 선형 관계의 강도를 측정한다. 범위는 -1 ~ +1이다.
e.g., A: [1, 2, 3], B: [2, 4, 6] → B = 2A, 완벽한 선형 → r = 1.0
e.g., A: [1, 2, 3], B: [2, 5, 4] → 선형 관계 깨짐 → r < 1
e.g., A: [1, 2, 3], B: [101, 102, 103] → 스케일만 다름 → r = 1.0
비례 관계만 보기 때문에 스케일 차이에 둔감하다.
두 점수 세트의 절대값이 완전히 달라도 r = 1.0이 나올 수 있다.
값 자체가 아닌 순위(rank) 간의 대소 관계를 측정한다.
선형일 필요 없이, "하나가 크면 다른 것도 크다"는 관계만 성립하면 높은 ρ를 얻는다. 범위는 -1 ~ +1이다.
e.g., A: [1, 3, 5], B: [10, 20, 30] → 값 차이는 크지만 순서 동일 → ρ = 1.0
e.g., A: [1, 2, 3], B: [1, 3, 2] → 2번째와 3번째 순위 역전 → ρ < 1
순위 기반이라 이상치(outlier)에 강건하다.
Pearson's r이 값의 선형 비례를 요구하는 반면, Spearman's ρ는 순서만 보존되면 된다.
가능한 모든 관측값 쌍에 대해 순서의 일치/불일치를 세어 비율로 산출한다. 범위는 -1 ~ +1이다.
e.g., A = [1, 2, 3], B = [1, 3, 2]인 경우:
(1, 2): A에서 1 < 2, B에서 1 < 3 → 일치
(1, 3): A에서 1 < 3, B에서 1 < 2 → 일치
(2, 3): A에서 2 < 3, B에서 3 > 2 → 불일치
→ τ = (2 − 1) / 3 ≈ 0.33
쌍 단위 비교이므로 Spearman's ρ보다 보수적이다. 동일 데이터에서 일반적으로 |τ| ≤ |ρ|이 성립한다.
| 지표 | 비교 대상 | 관계 유형 | 이상치 민감도 |
|---|---|---|---|
| Pearson's r | 값 자체 | 선형 | 높음 |
| Spearman's ρ | 순위 | 대소 관계 (순서 보존) | 낮음 |
| Kendall's τ | 쌍의 순서 | 순위 일치율 | 낮음 |
여러 평가자가 동일한 대상에 대해 실제로 같은 점수를 부여하는지를 측정한다. Correlation과 달리, 점수의 절대값이 같아야 한다.
아래 지표들은 모두 우연에 의한 일치를 보정한다는 공통점이 있다. 이진 분류에서 두 평가자가 무작위로 응답해도 약 50%는 우연히 일치할 수 있는데, 단순 일치율(percent agreement)은 이를 구분하지 못한다. κ나 α 계열은 이 우연적 일치를 제거한다.
2명의 평가자가 범주형 레이블을 부여할 때의 일치도를 측정한다.
e.g., 두 의사가 50명의 환자를 "우울증 / 비우울증"으로 분류한다.
- 40명에 대해 같은 진단 → p_o = 0.80
- p_e = 0.50인 경우 → κ = (0.80 − 0.50) / (1 − 0.50) = 0.60
- p_e = 0.64인 경우 → κ = (0.80 − 0.64) / (1 − 0.64) ≈ 0.44
→ 같은 80% 일치율이어도, 우연의 기댓값이 높을수록 κ는 낮아진다.
해석 기준 (Landis & Koch, 1977):
| κ 범위 | 해석 |
|---|---|
| ≤ 0 | 일치 없음 (Poor) |
| 0.01 – 0.20 | 미미 (Slight) |
| 0.21 – 0.40 | 보통 (Fair) |
| 0.41 – 0.60 | 중간 (Moderate) |
| 0.61 – 0.80 | 상당 (Substantial) |
| 0.81 – 1.00 | 거의 완벽 (Almost Perfect) |
※ 이 기준은 근거 없이 제안된 것이므로 참고용으로만 사용한다.
제한:
Cohen's κ의 "2명 한정" 제약을 해결한 지표로, 3명 이상의 평가자에 대한 범주형 일치도를 측정한다.
e.g., 14명의 정신과 의사가 30명의 환자를 5가지 진단 범주로 분류할 때,
14명 전체의 일치도를 하나의 수치로 요약할 수 있다.
이름 때문에 Cohen's κ의 다중 평가자 버전처럼 보이지만, 실제로는 Scott's π의 일반화이다.
κ 계열의 제약들을 한 번에 해결한 범용 지표이다.
κ 계열이 일치(agreement) 기반인 것과 달리, α는 불일치(disagreement) 기반으로 계산한다.
κ 계열 대비 장점:
해석 기준:
| α 범위 | 해석 |
|---|---|
| α ≥ 0.800 | 신뢰할 수 있는 수준 |
| 0.667 ≤ α < 0.800 | 잠정적 결론 가능 |
| α < 0.667 | 신뢰하기 어려움 |
| 지표 | 평가자 수 | 데이터 유형 | 결측치 처리 | 우연 보정 |
|---|---|---|---|---|
| Cohen's κ | 2명 | 명목형 (Weighted κ로 순서형 확장) | ✗ | ✓ |
| Fleiss' κ | 3명 이상 | 명목형 | ✗ | ✓ |
| Krippendorff's α | 2명 이상 | 명목/순서/등간/비율 | ✓ | ✓ |
세 평가자가 동일한 3개 대상을 평가한 결과이다.
| 대상 | 평가자 A | 평가자 B | 평가자 C |
|---|---|---|---|
| #1 | 1 | 3 | 5 |
| #2 | 2 | 4 | 6 |
| #3 | 3 | 5 | 7 |
Correlation은 높지만 Agreement 낮은 경우로, Corrleation과 Agreement는 서로 다른 지표임을 보여준다.