-생략-
-생략-
1.2 다중 인스턴스 학습 동기
다중 인스턴스 학습17, 13은 세분화와 분류 모두의 한계를 부분적으로 완화하는 방법 범주를 나타냅니다. 기존의 분류에 비해 MIL은 전체 이미지 크기와 독립적으로 전체 슬라이드 이미지에 적용할 수 있습니다. 분할 알고리즘의 훈련과 비교할 때 로컬 레이블 정보를 수집할 필요가 없습니다. 관심 영역을 수동으로 분할하여 실측 레이블은 전체 슬라이드 이미지 수준에서만 사용할 수 있지만 다중 인스턴스 학습 알고리즘은 부분적으로 추론 단계에서 로컬 예측을 생성할 수 있습니다. 그런 의미에서 MIL은 세분화와 분류 사이의 중간 접근 방식으로 해석될 수 있습니다. 일반적으로 WSI 수준에서만 사용할 수 있는 주석(WSI당 하나의 레이블이 있음)은 약한 레이블로 해석될 수 있습니다.
1.3 통계
디지털 병리학 분야에서 MIL에 대한 명확한 추세가 있습니다.
검색 문자열 "다중 사례 학습" AND("디지털 병리학" OR "조직학" OR "히스토병리학" OR "전산 병리학" OR "전체 슬라이드 이미지*")을 기반으로 하는 Pubmed 검색에서 120개의 결과가 제공되었으며, 2021년에는 29%가 나왔습니다. , 그림 1과 같이 2020년에서 2021년 사이에 51%, 2019년에서 2021년 사이에 63%입니다.
확립된 개념 외에도 이 작업의 초점은 2020년부터 새로운 기술적 접근 방식을 보여주는 출판물에 있습니다.
1.4 기여
이 논문에서는 최신 MIL의 기본 빌딩 블록에 대한 구조화되지 않은 문헌 분석을 제공합니다. 기본 MIL 원칙 외에도 특히 2020년 이후 최근 문헌에서 개발, 논의 및 평가된 기술 성과에 중점을 둡니다(그림 1과 같이 급격한 증가에 동기 부여됨). 이러한 접근 방식을 기반으로 구조화되고 통합된 수학 및 텍스트 설명과 유사한 기술에 대한 요약을 제공합니다. 마지막으로 전산 병리학 및 하드웨어 요구 사항의 실제 적용과 관련하여 현재 접근 방식의 기술적 기회와 한계에 대한 중요한 논의를 제공합니다.
이 논문의 나머지 부분은 다음과 같이 구성되어 있다. 섹션 2에서는 기본 원칙과 일반적인 파이프라인을 제시합니다. 섹션 3에서는 최첨단 딥 러닝 아키텍처와 특수 구성 요소를 소개합니다. 섹션 4에서는 일반 파이프라인의 첫 번째 부분을 보여주는 WSI에서 패치 및 기능 추출에 중점을 둡니다. 5장에서 중요한 논의가 제공됩니다. 6장에서 이 문서를 마무리합니다. 우리는 출판물에 따르기보다는 기술 혁신에 따라 구조를 결정했습니다. 이러한 이유로 개별 논문은 잠재적으로 여러 섹션에서 언급됩니다.
2 병리학에서의 다중 사례 학습
딥러닝과 심층신경망 시대 이전에 머신러닝 알고리즘은 대부분 특징 추출 단계와 분류 단계의 두 단계로 구성되었습니다. 분류 모델의 최적화는 일반 알고리즘에 의해 채택되었지만 특징 추출은 종종 특정 애플리케이션 시나리오에 맞게 수작업으로 만들어졌습니다.
심층 컨벌루션 신경망이 예를 들어 이미지를 입력으로, 레이블 또는 레이블 맵을 출력으로 사용하여 모델의 종단 간 최적화를 가능하게 했기 때문에 딥 러닝 시대는 이 파이프라인을 변경했습니다[18, 9]. 따라서 구체적인 이미지 필터로 구성된 특징 추출 단계는 모델 내에서 자동으로 훈련될 수 있습니다. 그러나 일부 응용 프로그램의 경우 훈련된 컨볼루션 신경망을 특징 추출 단계를 나타내는 컨볼루션 부분과 모델의 분류 부분으로 분리하는 것이 유리할 수 있습니다[19]. 이를 통해 예를 들어 이 새로운 기능 추출 방법과 확립된 분류 모델의 조합입니다. 방대한 양의 데이터에 대해 훈련된 특징 추출 모델은 효율적인 분류 모델(서포트 벡터 머신과 같은 더 적은 매개변수 포함)과 결합되어 작은 훈련 데이터가 대상 애플리케이션에만 사용 가능한 경우 효과적인 일반화를 달성할 수 있습니다. 종종 사용 가능한 WSI의 수가 적기 때문에 이는 특히 MIL과 관련이 있습니다.
매우 높은 수준에서 디지털 병리학의 MIL 접근법은 그림 2에 요약된 정의로 추상화될 수 있습니다. 원본 WSI에서 패치(1)를 추출한 후 각 패치는 먼저 개별적으로 처리(2)한 다음 집계(3) 및 집합 처리 단계(4)를 거쳐 최종적으로 패치 "백"에 해당하는 레이블을 출력합니다. 여기서는 WSI에 해당합니다. 이 매우 일반적인 파이프라인은 패치 처리 단계(2) 후에 데이터 유형을 제한하여 약간 입증될 수 있습니다. 이 단계에서 최종적으로 각 패치에 대한 스칼라(예: 0과 1 사이의 스칼라)를 출력하는 경우 이 방법을 인스턴스 기반 MIL 접근 방식이라고 합니다. 이 단계에서 최종적으로 각 패치에 대한 특징 벡터를 출력하는 경우를 임베딩 기반 MIL 방식이라고 한다[13].
이 사소한 차이는 알고리즘의 잠재력에 큰 영향을 미칩니다. 인스턴스 기반 방법은 각 패치에 대해 개별적으로 최종 결정을 내릴 수 있습니다. 이 출력은 다양한 관심 영역(ROI)의 관련성을 나타내는 완전한 WSI에 대한 세분화 맵(segmentation maps)을 생성하는 데 사용할 수 있습니다. 이 장점은 인스턴스 기반 MIL의 단점과 직접적으로 일치합니다. 패치 정보가 단일 스칼라 값으로 표현되어야 한다는 제한은 잠재적으로 모델의 힘을 제한합니다. 이러한 이유로 임베딩 기반 MIL 접근 방식은 일반적으로 전체 슬라이드 이미지 수준에 대한 분류가 최종 목표로 간주되는 경우에 더 강력합니다[20, 21].
개략적인 파이프라인은 기존 모델을 사용하든 딥 러닝 기반 모델을 사용하든 관계없이 동일하게 유지됩니다. 다음에서는 최첨단 딥 러닝 아키텍처에 중점을 둡니다.
그림 2에 묘사된 일반 파이프라인은 그림 3에도 나와 있는 매우 쉬운 방법으로 깊은 컨벌루션 신경망으로 구현할 수 있습니다.
신경망 입력으로 P × X × Y 크기의 3차원 샘플을 고려합니다. 여기서 상수 X 및 Y는 패치 차원(추출된 패치의)을 나타내고 P는 추출된 패치 수를 나타냅니다. X와 Y는 컨벌루션 네트워크의 특성에 맞게 선택해야 하지만(다음 단락에서 설명) 이론상 P는 자유롭게 선택할 수 있습니다. 섹션 5에서는 메모리 요구로 인한 추가 제한 사항에 대해 논의합니다.
패치가 공급되는 첫 번째 레이어는 컨볼루션 레이어(conv)입니다.
입력 신호가 3차원이지만 여기에서는 모든 단일 패치가 개별적으로 처리되는 방식으로 2차원 필터만 사용됩니다(3차원의 순서는 임의적이며 의미가 없기 때문). 종종 잘 연구된 2D ResNet 모델 중 하나가 이러한 목적으로 사용됩니다[18]. 마지막 단계로, 컨벌루션 신경망의 출력은 각 패치에 대해 개별적으로 평면화되어 행렬이 됩니다. 다른 패치를 (P) 행으로, 여러 (F) 기능을 열로 사용합니다.
이 행렬은 풀링 함수를 통해 집계됩니다. 이론적으로, 길이 F의 벡터에 P ×F 행렬(M)을 투영하는 모든 미분 가능 함수를 여기에 적용할 수 있습니다. 일반적인 MIL 풀링 기능은 섹션 3.2에 설명되어 있습니다.
이 풀링 작업 중에 패치당 기능이 WSI당 기능으로 변환됩니다. 최종 벡터는 전체 조직학적 슬라이드에 대한 설명자를 나타냅니다.