WSI 패치 Tile - Aggregation 방법

boingboing·2023년 8월 3일

네트워크의 출력은 슬라이드 수준 진단으로 집계되어야 하는 패치 수준 예측이었습니다.

기존에는 패치를 최대 예측 확률을 가진 클래스로 추론함.
(LUSC, NORMAL, LUAD) (0.3 0.1 0.6)
-> LUAD
기존의 집계 접근 방식은 일반적으로 슬라이드 수준 추론을 도출하기 위해 두 가지 범주로 나뉨.
1) 클래스별 패치 수를 세어 가장 많은 클래스에 해당하는 라벨을 가진 슬라이드를 할당하는 다수결 방식
(슬라이드 당 LUAD 15개 LUSC 20개-> LUSC)
2) 다른 하나는 각 클래스의 (패치 모두의) 확률을 더한 후 최대 평균 클래스 확률-> 슬라이드 라벨을 추론하는 평균 풀링 방식임
데이터 세트에서는 복합 조직 구성 요소가 하나의 슬라이드에 공존할 수 있음. 예를 들어 정상, 염증, 종양 성분이 종양 슬라이드의 여러 영역에 흩어져 있을 수 있지만, 이 연구에서는 종양 슬라이드 라벨에는 한 가지 주요 유형의 종양 성분만 나타납니다. 따라서 다수결 투표와 확률 임계값 전략을 융합한 2단계 임계값 기반 종양 우선 집계 방법을 제안했습니다. 병리학자들은 폐암과 PTB 또는 OP가 하나의 H&E 슬라이드에 공존하는 등 여러 병변이 공존하는 경우를 자주 접하게 됩니다.
모든 병변 유형을 동일하게 처리하고 예측 확률이 가장 높은 유형을 슬라이드 수준의 진단으로 간주하면, 모델 결과에서 크기가 작아 암 병변을 놓칠 수 있으며, 이는 환자에게 훨씬 더 해로울 수 있습니다. 따라서 우리는 암의 진단 민감도를 개선하고자 종양 우선 접근법을 제안했습니다. 우리의 방법은 질병의 심각도에 따라 조직 유형의 우선 순위를 정하고 가장 위협적인 조직 유형, 특히 종양 유형을보고했습니다.

병변 유형에 따라 임계값을 다르게 설정하는 것이 합리적입니다. 염증성 질환의 경우, PTB가 현미경적으로 더 특징적인 형태이기 때문에 처음에는 PTB의 임계값 범위가 OP보다 약간 낮게 설정되었습니다. 정상 폐 조직의 임계값 범위는 진단 정밀도를 향상시키기 위해 가능한 한 높게 설정되었습니다. LUAD, LUSC, SCLC는 모두 종양 유형이므로 임계값은 동일해야 합니다. 또한 민감도를 개선하기 위해 임계값은 질병의 중증도에 대략 반비례해야 합니다. 따라서 임계값은 기준을 충족하도록 설정되었습니다: 종양임계값 < PTB임계값 < OP임계값 < NL임계값.

전문 병리학자들은 임계값 기반 종양 우선 아이디어에 동의하고 임상 경험에 따라 다음과 같이 임계값 범위를 제안했습니다: 종양 = [0.1, 0.5], PTB = [0.2, 0.5], OP = [0.3, 0.5], NL = [0.7, 0.95]. 이러한 임계값 원칙과 범위를 채택하고 0.05 단계의 그리드 검색 방법을 적용하여 첫 번째 테스트 데이터 세트인 SYSU1(Sun Yat-sen University 데이터 세트 1)에서 최적의 임계값 설정을 얻었습니다. 그 결과, 450개의 임계값 그룹을 도출하고 그에 해당하는 마이크로 평균 및 매크로 평균 AUC를 계산했습니다. 마이크로 평균 AUC를 먼저 내림차순으로 하고, 추가 조건으로 매크로 평균 AUC를 내림차순으로 계산한 결과, 종양(LUAD, LUSC 또는 SCLC) = 0.1, PTB = 0.3, OP = 0.4, NL = 0.9의 조합이 앞서 언급한 원칙을 만족하고 SYSU1 검사 코호트(추가 파일 2: 표 S1)에서 최상위를 차지하여 다음 작업의 임계값 설정으로 선정되었습니다.

임계값을 정의한 후 2단계 집계를 구현했습니다. 첫 번째 단계에서는 집계 원리를 적용하여 각 타일의 라벨을 도출하고 다음과 같이 공식화했습니다(추가 파일 1: 그림 S1): (i) NL의 예측 확률이 0.9를 초과하면 해당 타일을 NL로 추론하고, (ii) 그렇지 않은 경우 신생물 범주의 확률이 0.1보다 크면 최대 확률의 신생물 클래스로 라벨을 할당하고, (iii) 그렇지 않은 경우 PTB 또는 OP의 예측 값이 다른 임계값보다 높으면 해당 클래스 라벨을 할당하고, (iv) 위의 조건 중 하나라도 충족되지 않으면 타일에 최대 확률 값을 가진 클래스로 라벨을 지정합니다.

두 번째 단계에서는 유사한 프로토콜을 적용하여 클래스당 타일 수를 입력 벡터로 사용된 전체 타일 수로 나눴습니다(추가 파일 1: 그림 S2). 첫 번째 단계에서 각 타일의 레이블을 가져와 각 클래스의 지원 타일 수를 세고, 그 수를 모든 타일의 합으로 나누어 각 클래스의 슬라이드 레벨 확률 비율을 구한 다음, 마지막으로 슬라이드 레벨 비율을 두 번째 단계의 입력으로 사용하여 슬라이드 레벨 레이블을 추론했습니다. 그 결과, 타일 수준의 예측이 합쳐져 의학 지식에 따라 사람이 읽을 수 있는 슬라이드 수준의 진단에 도달했습니다.

boingboing

이전 포스트

pytorch loss = loss_fn Expected floating point type for target with class probabilities, got Long

다음 포스트

WSI 패치 Tile - Aggregation 방법

pytorch loss = loss_fn Expected floating point type for target with class probabilities, got Long

fatal: the remote end hung up unexpectedly

0개의 댓글