Multiple Instance Learning

Cold Ui·2022년 10월 12일

이렇게 열쇠 꾸러미가 있다고 가정하자 위에 두 세트의 열쇠가 열리는 열쇠 아래 두 세트의 열쇠가 안열리는 열쇠이다. 위 열쇠 세트들은 positive의 training 샘플 아래 열쇠 세트는 negative의 training 샘플이라고 한다.
맨 오른쪽 새로운 세트가 들어왔을 때 이 세트가 문을 열 수 있을 지 없을지 맞추는 문제가 Multiple Instance Learning에서 풀고자 하는 문제이다.
빨간색 열쇠가 중요한 열쇠라고 치면 오른쪽 test 셋에서는 안열릴 확률이 높을 것이다.

이런 문제를 어떻게 의료영상 분류문제에 적용할 수 있는지 살펴보자
의료영상 데이터같은 경우에 노멀 데이터가 있고 문제가 있는 cancer데이터가 있다고 치자.
영상에서는 cancer가 나타나는 전체 영역이 아닌 작은 일부분에서 cancer가 발견된다. classification을 할 때 넣어주는 feature는 영상 전체를 classifier에 넣게 되고 classifier가 normal인지 문제가 있는 cancer인지 구분을 하게 된다.
feature는 영상전체에서 뽑히기 때문에 원하는 cancer데이터 부분이 강조가 되지 않는다. 그래서 Multiple Instance Learning의 아이디어는 영상 전체 데이터들에서 작은 패치들을 뽑아서 여러개의 패치 샘플을 만든다. 전체 영상을 넣어주는 것보다 작은 패치들을 잘 구분해 줄 수 있는 classifier를 만들고 그 결과를 바탕으로 전체 영상의 라벨을 결정하겠다는 것이 Multiple Instance Learning의 아이디어이다.

의료 영상에서는 영상 단위의 라벨 값만 가지고 있다. 어디가 실제 cancer부분인지 라벨이 없다. 만약에 하나하나의 패치들을 Instance라고 말을 한다. Instance별로 classification을 할 수 있는 Instance classifier을 만들게 되면 normal 케이스에선 패치들이 classifier에 통과하게 되면 normal이라고 판단 될 것이라는 가정이 있을 것이고 마찬가지로 다른 normal 패치들을 넣었을 때도 다 normal이라고 나올 것이다. 반면에 cancer에 대한 영상을 패치로 해서 넣었을 때는 cancer 부분이 아닌 경우에는 normal이라고 나오게 될 것이고 cancer부분 패치에서는 classifier가 cancer 부분이라고 판단을 할 것 이다.

열쇠 문제와 마찬가지로 키 3개 중에 하나만 맞는 열쇠가 있으면 열리는 것 처럼 의료데이터 경우에서도 여러 패치중에 하나라도 cancer가 있는 경우 그 의료 영상은 cacer라고 판단을 내릴 수 있다라는 것이 Multiple Instance Learning의 목적이다.

Instance classifier가 잘 작동을 한다면 실제 영상 어떤 부위에서 cancer가 있는지 까지도 맞춰 줄 수 있기 때문에 어느 정도 weakly supervised learning과도 연관성이 있는 내용이다.
여기서 문제를 푸는 방법은 다양한 기법들이 제안이 되었고 Instance 단위로 Classifier를 만드는 건 하나의 예시이다.
실제로는 각 패치의 Instance들에서 feature들을 뽑아주고 feature들을 다 agreegation(집합)하여 최종적으로 한번에 여러개의 multiple 패치들의 feature들이 들어가면서 classification을 하는 것도 Multiple Instance Learning의 한 종류라고 할 수 있다.

혹은 처음 말했던 것처럼 Instance 레벨의 classifier를 만들 때에는 가장 간단한 방법은 normal 패치들은 다 0으로 labeling하고 cancer의 경우에는 모든 패치들을 1로 labeling해서 Instance classifier를 학습시켜 최종 결과를 내는 방법이다.
혹은 cancer 영상중 instance들 중에서 cancer의 확률이 높은 애들을 selection하여 Instance Classifier에서 성능을 높여주고자 하는 연구들도 진행되고 있다.

https://www.materic.or.kr/community/mterview/content.asp?f_id=149&page=1

최근 Multiple Instance Learning (MIL) 기법을 이용하여 COVID-19으로 인한 세균성폐렴을 CT 이미지에서 높은 정확도로 진단하는 기술 개발에 성공하여 의료영상 분야 극상위 국제 학술지인 Medical Image Analysis (IF=11.15, JCR 상위 1.4%)에 게재되었습니다. 연구하신 알고리즘에 대해 자세한 설명 부탁드립니다.

Multiple Instance Learning (MIL) 은 여러 인스턴스들의 특징들을 묶음으로 입력으로 받았을 때 이들 중 주요한 인스턴스들을 선별해 묶음의 레이블을 정확하게 예측해 줄 수 있는 학습모델입니다. 사이즈가 큰 고해상도 이미지 내부에 작은 병변이 있을 때 영상 전체를 보고 판단을 내리기 보다는 MIL을 이용해 주요한 영역을 선별해 결과를 예측하면 성능을 높일 수 있습니다.

본 연구팀은 2020년 MIL 기술을 병리영상 분석에 활용하여 좋은 결과를 얻어냈고, 이를 발전시켜 본 논문에서는 여러 2차원 slice들로 구성된 3차원 CT 영상 분석에 적합한 알고리즘을 개발했습니다. CT 영상을 활용한 COVID-19 진단에 적합하도록 두 개의 attention pooling 모듈과 비지도학습기반 contrastive learning을 활용했습니다. Attention pooling을 이용하면 인스턴스 별로 다른 가중치를 줄 수 있으며, 일부 slice 혹은 국소 위치에만 존재하는 병변 특징들을 선별하여 결과를 향상시킬 수 있습니다.

또한 최근 활발히 연구되고 있는 비지도학습기반 contrastive learning을 이용하여 환자별 특징 추출 성능을 극대화한 부분도 분류성능 개선에 도움을 주었습니다. 제안하는 기법은 학습을 할 때 병변 레이블링을 만들어주지 않더라도 병변의 위치를 자동으로 찾아낼 수 있는 Weakly supervised learning이라는 점이 또 다른 장점입니다. CT 진단 뿐 아니라 다양한 의료영상 내에서 이상부위를 자동으로 검출해주기 위해 활용할 수 있을 것으로 기대하고 있습니다.

MIL의 또 다른 설명

https://jmg764.medium.com/an-introduction-to-deep-multiple-instance-learning-4a8bdcddb77

딥 러닝은 지도 학습 작업을 수행할 때 기존 기계 학습 방법에 비해 몇 가지 장점이 있습니다.

i. 기존의 머신 러닝 기술은 도메인 전문가의 기능 추출에 의존하는 반면 딥 러닝 알고리즘은 자체적으로 데이터에서 고급 기능을 학습합니다. 이를 통해 특징 추출에 대한 도메인 이해 요구 사항에서 벗어나 이미지 또는 텍스트와 같은 비정형 데이터를 입력으로 사용하는 부드러운 종단 간 파이프라인을 만들 수 있습니다.

ii . 전이 학습을 통해 우리는 다른 연구원이 달성한 진전의 이점을 얻을 수 있으므로 개발 프로세스를 가속화할 수 있습니다.

iii . 딥 러닝은 데이터 세트가 클 때 우수한 성능을 달성합니다.

이 마지막 요점은 기존 지도 학습 기술의 고유한 단점인 손으로 레이블이 지정된 훈련 데이터에 의존한다는 점을 조명합니다. 딥 러닝은 도메인 전문가가 기능 추출을 수행할 필요성을 줄여주지만 데이터 레이블링에는 여전히 필요합니다. 이것은 비용이 많이 들고 개인 정보 보호 문제를 야기할 수 있습니다 .

약한 지도 학습 은 더 높은 추상화 수준에서 더 낮은 품질의 레이블을 사용하여 이러한 문제를 극복합니다. 이러한 약한 레이블은 얻기가 더 쉬우며 기존의 감독을 사용하는 모델과 비슷한 품질의 모델을 만들 수 있습니다.

다중 인스턴스 학습

MIL(다중 인스턴스 학습)은 학습 인스턴스가 백이라고 하는 세트로 배열되는 약한 지도 학습의 한 형태입니다. 레이블은 가방에 포함된 개별 인스턴스가 아닌 전체 가방에 대해 제공됩니다. 따라서 MIL에서 우리는 인스턴스의 가방에 대한 레이블이 주어진 개념을 배우는 것을 목표로 합니다.
MIL 모델의 기반이 될 수 있는 다양한 가정이 있지만 여기에서는 표준 MIL 가정 을 사용합니다. bag 의 모든 인스턴스가 음수 이면 가방 에 레이블이 붙을 수 있고 , 적어도 하나의 긍정적인 인스턴스가 있으면 긍정적 으로 레이블이 지정될 수 있습니다. 이 공식은 컴퓨터 비전 및 문서 분류의 다양한 문제에 자연스럽게 맞습니다. 예를 들어 전문가가 제공하는 값비싼 로컬 주석 대신 전체 환자 진단만 사용할 수 있는 의료 이미지에 액세스할 수 있습니다.

다중 인스턴스 학습 소개

다중 인스턴스 학습(MIL)은 학습 인스턴스가 백이라고 하는 세트로 배열되고 인스턴스 자체가 아닌 전체 백에 대해 레이블이 제공되는 약한 지도 학습의 한 형태입니다. 이를 통해 데이터에 레이블을 지정하는 데 비용이 많이 들기 때문에 많은 비즈니스 문제에 존재하는 약하게 레이블이 지정된 데이터를 활용할 수 있습니다.

의료 영상: 로컬 주석 대신 질병이 있는 지역에 대한 환자 진단만 사용할 수 있는 의료 영상으로 컴퓨터 지원 진단을 훈련할 수 있습니다.
비디오/오디오: 비디오 또는 오디오 태그는 종종 전체 비디오에만 사용할 수 있으며 언제 발생하는지 아는 것과 관련이 있습니다(예: 이 비디오에는 고양이와 사람이 포함됨).
텍스트: 문서 분류, 예를 들어 특정 웹사이트(여러 웹 페이지로 구성)가 하나의 특정 주제에 관한 것인지 알고 싶은 곳입니다. 해당 주제가 없는 관련 없는 정보가 포함된 여러 페이지가 있습니다.
마케팅 : 종종 마케팅 캠페인은 한 그룹의 사람들에게 보내지고 어떤 사람이 영향을 받았는지 명확하지 않습니다.
시계열: 가스/수도 계량기가 있고 월별 총 금액을 알고 있는 일부 산업 사례의 경우 더 세분화된 수준(예: 일)에서 금액을 추정할 수 있습니다.

표준 MIL 가정에서 음수 백은 음수 인스턴스만 포함 하는 반면 양수 백 은 최소한 하나의 양수 인스턴스를 포함합니다 . 긍정적인 사례는 문헌에 증인으로 표시됩니다.
MIL의 직관적인 예는 여러 사람이 키를 포함하는 특정 키 체인을 가지고 있는 상황 입니다. 이 사람들 중 일부는 특정 방에 들어갈 수 있고 일부는 그렇지 않습니다. 그런 다음 작업은 특정 열쇠 또는 특정 열쇠 고리가 당신을 그 방으로 데려갈 수 있는지 예측하는 것입니다.
이 문제를 해결하려면 모든 "긍정적인" 키체인에 공통적인 정확한 키인 녹색 키를 찾아야 합니다. 그러면 전체 키체인을 올바르게 분류할 수 있습니다. 필요한 키가 포함되어 있으면 양수이고 없으면 음수입니다.

이 표준 가정은 양성 백을 단일 사례로 식별할 수 없고 누적으로 식별할 수 있는 문제를 수용하기 위해 약간 수정될 수 있습니다. 예를 들어, 사막, 바다, 해변 이미지 분류에서 해변 이미지에는 모래와 물 세그먼트가 모두 포함됩니다. "해변"과 "사막"/"바다"를 구별하려면 몇 가지 긍정적인 사례가 필요합니다.

Characteristics of MIL Problems(MIL 문제의 특성)

작업/예측: 인스턴스 레벨 vs Bag 레벨

이미지의 객체 현지화 (예: 콘텐츠 검색) 와 같은 일부 응용 프로그램 에서 목표는 가방을 분류하는 것이 아니라 개별 인스턴스를 분류하는 것 입니다. 가방 레이블은 이미지에서 해당 엔티티의 존재입니다.

메서드의 백 분류 성능은 인스턴스 분류 성능을 나타내지 않는 경우가 많습니다. 예를 들어, 부정적인 가방을 고려할 때 하나의 False Positive로 인해 가방이 잘못 분류됩니다. 반면에 포지티브 백의 경우 레이블을 변경하지 않으므로 백 수준에서 손실에 영향을 주지 않아야 합니다.

가방 구성

대부분의 기존 MIL 방법은 양수 및 음수 인스턴스가 양수 및 음수 분포와 독립적으로 샘플링된다고 가정합니다. 여러 관계가 동시에 발생하기 때문에 종종 그렇지 않습니다.

가방 내부 유사점

동일한 bag에 속한 인스턴스는 다른 bag의 인스턴스가 공유하지 않는 유사성을 공유합니다. Computer Vision 응용 프로그램에서 모든 세그먼트는 캡처 조건(예: 조명)과 관련된 몇 가지 유사점을 공유할 수 있습니다. 또 다른 옵션은 아래와 같이 추출 프로세스에서 패치를 겹치는 것입니다.

인스턴스 동시 발생

인스턴스는 의미 관계를 공유할 때 가방에서 함께 발생합니다. 이러한 유형의 상관 관계는 그림의 주제가 다른 환경보다 특정 환경에서 더 잘 보일 때 또는 일부 개체가 종종 함께 발견될 때 발생합니다.

인스턴스 및 가방 구조

어떤 문제에서는 백의 인스턴스 사이 또는 백 사이의 기본 구조(공간적, 시간적, 관계적, 인과적)가 있습니다. 예를 들어 가방이 비디오 시퀀스를 나타내는 경우(예: 비디오에 고양이가 있다는 것만 알고 고양이가 나타나는 비디오 프레임을 식별하는 경우) 모든 프레임 또는 패치는 시간적, 공간적으로 정렬됩니다.

레이블 모호성

레이블 노이즈

일부 MIL 알고리즘, 특히 표준 MIL 가정에서 작동하는 알고리즘은 백 라벨의 정확성에 크게 의존합니다. 실제로 라벨 오류 또는 고유한 소음(noise)으로 인해 음성 백에서 양성 사례가 발견될 수 있는 상황이 많이 있습니다 . 예를 들어, 컴퓨터 비전 응용 프로그램에서 부정적인 이미지에 긍정적인 패치가 포함되어 있지 않다고 보장하기 어렵습니다. 집을 보여주는 이미지에 꽃이 포함될 수 있지만 꽃 이미지로 주석이 달릴 가능성은 거의 없습니다.

레이블 노이즈 는 긍정적인 이벤트의 밀도 가 서로 다른 가방이 있는 경우에도 발생합니다 . 예를 들어, 태그된 이벤트의 총 1초만 포함하는 10초의 오디오 녹음(R1)과 태그된 이벤트가 총 5초 동안 존재하는 동일한 지속 시간의 다른 오디오 녹음(R2)이 있습니다. 초. R1은 R2에 비해 이벤트의 약한 표현입니다.

다른 레이블 공간

이 포지티브 영역에 속하는 네거티브 이미지에서 패치를 추출하는 것이 가능합니다. 아래 예시에서 백호의 이미지에서 추출한 일부 패치는 시각적으로 유사하여 다른 개념 영역에 속합니다.

모델

인스턴스 또는 가방 level 분류에서 MIL에 사용할 수 있는 여러 모델이 있습니다. 다음은 몇 가지 예입니다.

Bag-Level 분류

Bag of Words 접근 방식

백은 이미지 임베딩과 같은 방법을 사용하고 백에 있는 각 인스턴스의 빈도를 결정하는 인스턴스로 나타낼 수 있습니다. 그런 다음 분류기는 이 히스토그램에 대해 훈련되어 가방이 양성인지 여부를 결정합니다.

EMD-SVM(Earth Mover Distance Support Vector Machine)

EMD-SVM은 두 분포 간의 비유사성을 측정한 것입니다(예: 이미지 임베딩을 통해). 각 백은 인스턴스의 배포이며 EMD는 SVM에서 사용되는 커널을 만드는 데 사용됩니다.

인스턴스 공간 메서드

여러 인스턴스 학습 애플리케이션을 위해 SVM의 대체 애플리케이션(mi-SVM 및 MI-SVM)이 개발되었습니다. 일반적으로 SVM은 인스턴스 간의 최대 여유를 결정하려고 합니다. MIL의 경우 목표가 양수 백에 있는 하나 이상의 인스턴스를 양수로 갖는 것이므로 여백이 변경되어 조건이 발생합니다. 양수 백에 있는 하나 이상의 인스턴스는 큰 양수 마진을 가져야 합니다.