Signal Detection Theory for Decision Making (4주차)

post-thumbnail

사람들은 왜 다른 결정을 할까, 시그널 디텍션 띠어리, 시그널과 노이즈를 어떻게 구붖ㄴ할까, 어떻게 상대방에게 정확하게 전달할까, 2 x 2 matrix 각각 어떤 의미인지, 명칭 이런거 다 기억, 타입 1 에러, 타입 2에러 쓸줄 알아야 함. 민감도 특이도, bias, ROC Curve, LU 씨값 다 알아야함

신호탐지이론이란? (Signal Detection Theory)

이 세상에는 많은 정보가 있고, 그 중에는 나에게 꼭 필요한 정보와 그렇지 않은 정보가 있습니다. 좋은 정보는 나에게 의미있고 유익한 의사결정을 할 수 있게 도와주지만, 그 외의 정보는 나의 의사결정을 방해할 수도 있습니다. 이러한 실제적인 상황을 논리적으로 정리하고 가능한 최적의 의사결정을 할 수 있는 방법을 설명해 놓은 것이 신호탐지이론입니다. 이 이론은 일상적인 상황에도 적용이 가능해 매우 활용성이 높은 이론입니다. 이 이론에는 4가지 경우가 있습니다.

첫째는, 실제로 신호가 존재하고 이를 제대로 탐지해서 반응한 경우입니다. "Hit" 입니다. 맞췄습니다. 예로, 화재가 발생했을때, 화재 경보기가 정확하게 울리는 경우입니다.

둘째는, 실제로 신호가 존재하지 않았는데 있다고 반응하는 경우입니다. "False Alarm" 입니다. 가짜 경고입니다. 예로, 화재가 발생하지 않았는데, 센서가 고장이거나 잘 못 건드려서 화재 경보가 울리는 경우입니다.

셋째는, 실제로 신호가 존재하는데 없다고 반응하는 경우입니다. "Miss"입니다. 놓쳤습니다. 예로, 화재가 실제로 났는데, 경보기가 울리지 않은 경우입니다. 넷째는, 실제로 신호가 존재하지 않는데, 이를 정확히 알고 반응하지 않은 경우입니다. "Correct Rejection" 입니다. 아닌 것을 아니라고 하는 경우입니다. 예로, 화재가 없었고 경보기도 울리지 않은 경우 입니다. 이 4가지가 사람에게 신호나 정보가 제공되었을 때 반응할 수 있는 모든 경우의 수입니다. 그 외의 애매한 상황은 최종 결정을 위한 일종의 과정이라고 보고 경우의 수에 반영하지 않습니다.

Signal/Noise 확률분포곡선의 이해

확률분포곡선이란, 데이터가 분포되어 있는 형태를 나타내는 선형 그래프입니다. 이러한 확률분포곡선을 활용하여 신호탐지이론을 설명할 수도 있습니다. 곡선의 아래 부분은 신호탐지이론의 2x2 매트릭스를 발생 가능한 경우의 수로 표현한 것입니다. 이 때 의사결정의 기준이 되는것이 그래프에서 나타난 Criterion Beta 입니다. 이 Beta 값이 어떻게 설정되느냐에 따라서 의사결정이 과연 최적이었는지를 결정하게 됩니다. 이 때 중립적인 Beta 값이 항상 최선은 아닙니다. 의사결정의 결과에 대한 비용이나 수익에 따라 최적의 의사결정 기준이 바뀔 수도 있습니다. 또는 개인의 가치관에 따라 최선의 의사결정 기준도 바뀔 수 있습니다. Beta가 지나가는 수직선을 의사결정선이라고 부르고, 이 선의 오른쪽은 Signal이 있다고 반응하는 "예", 왼쪽은 Signal이 없다고 반응하는 "아니오"를 의미하는 영역이라고 이해하면 됩니다. 확률 통계 용어가 사용되고 있어 생소하게 들릴 수 있지만, 이 책에서는 개념을 중심으로 이해하면 어렵지 않습니다.

Type I Error와 Type II Error

사람이 만드는 의사결정 오류 두 가지가 있습니다. 첫째는 "False Alarm"에 해당하는 Type I errorI(alpha) 입니다. 현상적으로는 "가짜를 진짜로 판단, 없는 사실을 있다고 잘못 판단, 약효가 없는데 있다고 판단" 하는 경우를 말합니다. 이를 통계 용어로 귀무가설을 활용해서 표현할 수 있습니다. 예로, 실제로는 약효가 없는데, "약효가 없다는 귀무가설 또는 영가설을 Reject한다고 표현합니다. 결론적으로, 약효가 있다고 잘못 판단한 것입니다.

둘째는 "Miss"에 해당하는 Type II Error(Beta) 입니다. 현상적으로는 "진짜를 가짜로 판단, 있는 사실을 없다고 잘못 판단, 약효가 있는데 없다고 판단" 하는 경우를 말합니다. 이를 통계검정과정에서 귀무가설을 활용해서 표현하면 다음과 같습니다. 예로, 실제로는 약효가 있는데 "약효가 없다는 귀무가설 또는 영가설을 Reject 하는것을 Fail한다고 합니다. 즉 약효가 없다는 말을 두번 돌려서 "약효가 없다는 가정이 틀렸다고 말하지 못하겠다"라고 표현하는 셈입니다. 결론적으로, 약효가 없다고 잘못 판단한 것입니다. 이 용법을 잘 습득하고 있으면 통계적 설명을 이해하는 데 매우 도움이 됩니다.

통계 검정에서 가설을 사용하는 이유

모든 실험 연구는 매우 기본적이고 단순한 논리로 구성됩니다. 우리가 쉽게 이해할 수 있는 가장 기본적인 논리적 해결 방법은 O, X 문제를 푸는것입니다. 복잡한 실험에서도 이 방법을 사용합니다. 가설이 맞냐 틀리냐의 2진법식 가설을 하나씩 풀어감으로써, 궁극적으로 복잡해보이는 과학적 진실을 하나씩 밝혀 나갑니다. 그래서 통계에서 사용되는 모든 가설은 2진법의 원리를 따라서 둘 사이에 아무런 차이가 없다는 귀무가설과 유의미한 차이가 있다는 대립가설로 되어 있습니다. 말하자면 0 아니면 1 입니다. 이처럼 매우 단순한 논리로 문제를 풀어나갑니다.

  • 귀무가설 = 영가설 = Null, A와 B는 유의미한 차이가 없다(No Significant difference)
  • 대립가설 = 대안가설 = A와 B는 유의미한 차이가 있다. (Significant difference)

민감도와 편향성 (Sensitivity, Bias)

진짜 신호와 가짜 신호를 구분하기 위해서는 두 가지 신호간의 물리적 차이가 클수록 구분하기가 쉽습니다. 이러한 물리적 차이의 정도를 민감도라고 부릅니다. 그래서 Signal 그래프와 Noise 그래프가 서로 멀리 있으면 민감도가 높고, 반대로 가까이 있으면 진짜와 가짜가 섞여 있어서 잘 구분이 어렵습니다. 이때 Criterion Beta는 신호와 가짜 신호를 판별하는 기준선입니다. 이 때 Beta값이 상대적으로 오른쪽에 있으면 웬만하면 가짜 신호라고 판별하는 보수적인 의사결정을 하게 되고, 반대로 왼쪽에 치우쳐 있으면 웬만하면 진짜 신호로 판별하는 관대한 의사결정을 하게 됩니다. 이러한 한쪽으로 치우치는 상태를 편향성이라고 부릅니다. 이 민감도와 편향성은 의사결정 기준을 분석하는 데 매우 중요한 개념이고, Type I Error, Type II Error의 원인을 분석하는 데도 사용됩니다. 반드시 숙지하고 있어야 의사결정 오류와 같은 인적오류를 정밀 분석할 수 있습니다.

Digital Health 영역에도 사용되는 개념

어느 정도면 Type I, Type II Error가 충분히 고려된 정확한 진단일지를 결정하는 기준이 있습니다. 이러한 기준은 현장에서의 의료진의 진단뿐 아니라, 건강보조기구에 사용되는 진단 기준에도 활용됩니다. 이때 기기의 진단 기준으로 정확도를 사용합니다. 정확도의 계산은 ROC의 아래 부분의 면적, 즉 AUC를 진단 정확도로 사용합니다. 실제 환자를 진단하는데 사용되는 정확도는 일반적으로 0.75 ~ 0.9 이상입니다. ROC curve란 False Alarm 또는 의학용어로 False Positive로 진단된 확률을 X축, Hit 또는 의학용어로 True Positive로 진단될 확률을 Y축으로 놓고, 다양한 진단의 경우를 그래프로 알기 쉽게 표현한 것입니다. 진단 정확도를 수치적으로 계산하기 위해서 민감도와 특이도를 사용합니다. 예로, 진짜 환자가 방문했을 때 이를 놓치지 않고 환자라고 진단할 확률을 민감도(HIT)라고 하고, 환자가 아닌 사람을 아니라고 진단할 확률 특이도(Correct Rejection) 이라고 합니다.

  • TP : HIT의 경우, 진짜 환자를 환자라고 진단함
  • FP : False Alarm의 경우, 건강한 사람을 실수로 환자로 진단함
  • FN : MISS의 경우, 진짜 환자를 실수로 병이 없다고 진단함
  • TN : Correct Rejection의 경우, 건강한 사람을 병이 없다고 진단함
  • Sensitivity (민감도) = TP/(TP + FN) : 진짜 환자를 환자로 진단할 확률
  • Specificity (특이도) = TN/(TN + FP) : 건강한 사람을 건강하다고 진단할 확률
  • Accuracy = (TP + TN)/(TP + TN + FP + FN) : 현재의 상태를 정확하게 진단할 확률

0개의 댓글