2022년 발표된 ‘Jury Learning: Integrating Dissenting Voices into Machine Learning Models’ 논문을 읽고 정리한 글입니다.
이전글에서도 언급했듯이 명확하게 구분되지 않는 문제를 구분하는 일이 딥러닝 연구할 때 골치 아픈 지점 중에 하나인 것 같습니다.
예를들어, Annotator A가 ‘참’이라고 생각했지만, B나 C는 A와는 다른 판단 기준으로 ‘거짓’으로 판단하는 경우가 있습니다. 그때마다 연구자는 고민하게 됩니다. 가이드라인을 더 상세하게 정해서 통일된 의견이 나올 수 있도록 할지, ABC 중 1/3이 참이라고 했으니 ‘1/3 참’ 데이터로 넘길지 등이죠. 전자는 가이드라인이 너무 길어져 annotator를 힘들게 할 수 있을 것이고, 후자는 자칫 신뢰할 수 없는 결과가 나올 수도 있을 겁니다.

이 논문은 그러한 문제를 해결하고자 합니다. 후자의 방법을 다수결보다는 고도화된 과학적 접근법으로 풀어냈습니다. 우선 annotator 개개인의 의사가 다를 수 있음을 존중합니다. 그래서 일단 annotator 각각마다 별개의 분류모델로 따로따로 학습합니다. 그리고나서 각각의 모델의 결과를 통합하여 결과를 제공하는데, 연구자가 임의로 annotator의 사회배경, 성격, 인종 등의 구성을 정해서 이런 식으로 통계적인 결과를 제공하는 겁니다. “백인, 히스패닉, AAPI, 흑인으로 균등하게 구성된 남성 6명, 여성 6명으로 구성된 이 집단의 경우 이들 중 58%가 거짓으로 동의할 것으로 예상됩니다.”라는 식으로요. 훨씬 객관적으로 보이지 않나요?
이렇게 개략적인 논문의 컨셉을 소개해드렸는데, 더 자세하게 Jury Learning이란 것이 무엇인지 살펴봅시다.
이 논문은 ‘Jury Learning’이라는 새로운 학습법을 제시합니다. 이 글에서는 기존 다수결 기반 딥러닝에서 간과할 수 있는 지점을 지적하고 있습니다.

Jury Learning은 직역하면 ‘배심원 학습법’입니다. 미국 법정에서 12명의 배심원단을 무작위로 선정하는 것처럼, 참/거짓을 구분하는 배심원단을 연구자 입맛에 맞게 구성해서 결과를 제공하는 방식입니다. 위의 그림으로 Jury learning의 파이프라인을 설명할 수 있습니다.
과정 1)
임의의 기준(인종, 성별 등)으로 나눠진 각 A,B,C 집단으로 구성된 전체 어노테이터 집단이 있다고 합니다. 전통적인 딥러닝 방식이라면 상대적으로 B, C 집단의 의견이 무시될텐데요.
과정 2)
하지만 연구자는 A, B, C 집단의 비율을 정의하여 층화추출 방법으로 배심원단을 뽑습니다. (예시그림에서는 A 집단에서 4명, B 집단에서 4명, C 집단에서 4명으로 균등하게 12명의 배심원단을 뽑았습니다.)
과정 3)
그 다음 각각 N명의 배심원들마다 학습하여 총 N개의 모델을 학습시키고 이 모델의 결과로 이들의 예상 outcome을 추측합니다.
과정 4)
최종 결과를 낼 때는 2~3의 과정을 반복하여 집단의 뽑을 때마나 하나의 평균/과반수 jury outcome(각 배심원들의 예상 outcome을 평균내거나 과반수의 결과)을 도출하는 식으로 수 개의 jury outcome을 도출합니다. 그 다음 jury outcome들의 중앙값으로 예측 결과를 제공합니다.
Jury Learning outcome의 강점은 다음과 같습니다.

만약에 배심원 구성이 변할 때 결과가 달라지는 것을 관찰했다면, 이런식으로 구성을 조정하여 적절한 배심원 구성을 직접 설정할 수도 있습니다. 만약 플랫폼 서비스에 여성회원이 더 많다면 여성 배심원을 늘리는 식으로 세부조정을 할 수 있습니다.