논문 리뷰 - Use of 3D-CAPSNET and RNN models for 4D fMRI-based Alzheimer’s Disease Pre-detection

govlKH·2024년 8월 27일
0

논문리뷰

목록 보기
41/45

Use of 3D-CAPSNET and RNN models for 4D fMRI-based Alzheimer’s Disease Pre-detection

서론 및 Preview

이 논문에서는 알츠하이머병(Alzheimer's disease, AD)의 조기 예측을 위한 새로운 접근 방법을 제시하고 있습니다. AD를 조기에 발견하면 인지 기능 저하를 보다 효과적으로 예방할 수 있기 때문에, 이러한 연구는 매우 중요한 의미를 갖습니다. 최근에는 휴식 상태에서 촬영한 기능적 자기공명영상(resting-state functional magnetic resonance imaging, rs-fMRI)을 이용해 AD를 자동으로 진단하려는 연구가 활발히 진행되고 있습니다.

이 과정에서 주로 CNN(Convolutional Neural Network) 기반의 기술이 사용되어 왔지만, 두 가지 주요 제약이 있습니다.

1) 첫 번째 제약은 fMRI 데이터셋의 크기가 작아 과적합(overfitting)이 발생할 수 있다는 점입니다. fMRI 데이터는 고해상도의 이미지 정보를 제공하지만, 데이터셋의 크기가 부족하면 모델이 학습할 때 불필요한 패턴을 학습하게 되어 실제로는 일반화가 잘되지 않을 수 있습니다.

2) 두 번째 제약은 fMRI 세션에서 얻은 4차원(4D) 정보를 효과적으로 모델링할 필요가 있다는 점입니다. 일반적으로 fMRI 데이터는 시간에 따라 변하는 뇌의 기능적 활동을 담고 있으며, 이 정보는 4D로 표현됩니다. 기존 연구에서는 fMRI 데이터를 2D 슬라이스나 3D 볼륨으로 처리하여 4D 정보를 나타내려 했지만, 이 과정에서 정보 손실이 발생하기 쉽습니다.

본 논문에서는 이러한 제약을 극복하기 위해 새로운 모델을 제안합니다. 이 모델은 캡슐 기반 네트워크(CapsNet)와 순환 신경망(Recurrent Neural Network, RNN)을 기반으로 합니다. 캡슐 네트워크는 객체의 특성과 관계를 효과적으로 모델링할 수 있는 신경망으로, 이미지 내에서 객체의 계층적 관계를 학습합니다. RNN은 시계열 데이터를 처리하는 데 강점을 가진 모델로, 시간에 따른 변화를 잘 파악할 수 있습니다.

이 논문에서 제안한 모델은 fMRI 데이터의 시공간적(4D) 정보를 효과적으로 모델링하여 AD 진단의 정확도를 높이는 데 초점을 맞추고 있습니다. 실험 결과, 이 모델을 사용했을 때 정상적인 대조군(Normal Control, NC)과 AD를 구분하는 정확도는 94.5%였고, 경도 인지 장애(Late Mild Cognitive Impairment, lMCI)와 초기 경도 인지 장애(Early Mild Cognitive Impairment, eMCI)를 구분하는 정확도는 61.8%로 나타났습니다. 이는 기존의 연구들보다 훨씬 높은 성능을 보여주는 결과입니다.

논문에서는 알츠하이머병이 미국에서 노인 사망 원인 중 여섯 번째로 높은 비율을 차지하고 있으며, 고령 인구의 증가로 인해 환자가 급증할 것으로 예상된다고 언급합니다. AD는 신경퇴행성 질환으로, 아밀로이드와 타우 단백질의 변화로 인해 뇌의 여러 영역에서 신경세포 사이의 통신 장애와 세포 사멸이 발생합니다. 특히 해마(hippocampus)는 학습과 기억을 담당하며, 다른 영역보다 먼저 손상될 가능성이 높습니다.

현재 AD에 대한 효과적인 치료법은 없지만, 조기 진단을 통해 질병의 진행을 더 효과적으로 늦출 수 있습니다. AD와 관련된 뇌의 변화는 증상이 나타나기 20년 전부터 시작되기 때문에, 경도 인지 장애 단계에서 AD로의 진행을 예측하는 것이 환자에게 매우 유익합니다. rs-fMRI는 뇌 활동 변화를 추적할 수 있어 AD와 같은 뇌 질환의 조기 진단에 유용하지만, 데이터 구조의 복잡성으로 인해 자동화된 진단에 어려움이 있습니다. 이러한 문제를 해결하기 위해 딥러닝 기술을 활용하는 연구가 계속되고 있으며, 본 논문의 제안된 모델도 이러한 시도의 일환으로 주목받고 있습니다.

본 논문의 방법론

2D-CNN을 fMRI 볼륨 슬라이스에 적용할 때, 3차원 공간 정보를 무시하게 되어 정보 손실이 발생할 수 있습니다. 이 문제를 해결하기 위해, Li 등은 3D-CNN과 LSTM을 결합한 모델을 도입하여 fMRI 스캔에 직접 적용했습니다. 이 모델에서는 3D-CNN이 생성한 공간적 특징 맵을 LSTM에 순차적으로 입력하여 fMRI 시계열의 시간적 관계를 모델링합니다. 하지만 CNN-RNN의 결합은 복잡성을 초래하며, 4D 정보를 모델링하는 데 한계가 있었습니다.

본 논문에서는 AD의 초기 진단을 위해 fMRI 데이터의 시공간적 특징을 효율적으로 학습하는 CapsNet-RNN 모델을 제안합니다. 전통적인 CNN에서 발생하는 과적합 문제를 해결하기 위해 Sabour 등은 Capsule Network(CapsNet)를 제안하였고, fMRI 세션의 4D 정보를 모델링하기 위해 RNN과 결합하였습니다. CapsNet은 fMRI 시계열에서 각 볼륨의 공간적 특징을 추출하여 특징 벡터를 생성하며, 이 벡터들은 RNN에 순차적으로 입력되어 시간적 특징을 모델링합니다.

CapsNet은 전통적인 CNN의 두 가지 주요 문제를 해결하기 위해 두 가지 주요 수정 사항을 도입합니다.

  1. 스칼라 특성 검출기 (Scalar Feature Detectors):
    CNN은 스칼라 값을 기반으로 한 특성 검출기를 사용합니다. 이는 서로 다른 엔티티 간의 공간적 관계를 효율적으로 포착하지 못하므로, CNN이 아핀 변환(affine transformations)에 덜 강인해지게 만듭니다. 이를 극복하려면 CNN은 모든 가능한 변환을 포함하는 대규모 데이터셋에서 학습되어야 하지만, 의료 데이터셋은 보통 모델의 파라미터 수에 비해 크기가 작기 때문에 과적합(overfitting)의 위험이 있습니다.

  2. 풀링 연산의 문제점 (Pooling Operation Issues):
    CNN은 각 합성곱 층 후에 풀링(pooling)을 수행하여 파라미터 수를 줄이고 계산 복잡성을 낮추는 데 집중합니다. 하지만 이 과정에서 위치 정보가 손실될 수 있습니다.

따라서 CapsNet은 하나 이상의 합성곱 캡슐 층(convolutional capsule layers)을 가질 수 있으며, 각 층은 이전 층에서 나온 합성곱 캡슐들(특성 맵) 위에서 합성곱 연산을 수행합니다. 합성곱 연산은 CNN의 weight sharing 특성을 유지하기 위해 사용되며, 이미지 전체에서 재사용 가능한 특성 검출기를 학습하게 됩니다. 각 합성곱 캡슐은 shape entity를 나타내며, N개의 feature maps으로 구성됩니다. 이 특성 맵의 수는 atom의 수로 불립니다.

이 N개의 특성 맵 그룹은 캡슐의 그리드(grid)로 볼 수 있으며, 각 캡슐은 벡터를 출력합니다. 그리드의 각 위치에서 캡슐은 N차원 출력 벡터를 가지며, 이 벡터는 해당 위치에서의 특성 검출기들의 출력을 나타냅니다.

캡슐의 출력 벡터 길이는 이 캡슐이 나타내는 엔티티(예: 사각형, 삼각형 등)의 존재 확률을 나타내며, 캡슐의 출력 벡터 방향은 엔티티의 포즈(pose), 위치, 크기, 방향, 변형(deformation), 질감(texture) 등 다양한 특성을 인코딩합니다.

각 합성곱 캡슐 층의 캡슐들은 특정 계층에서의 엔티티 집합을 나타내며, 상위 계층의 엔티티들은 하위 계층의 엔티티들로 구성됩니다.

CapsNet 아키텍처

제안된 CapsNet 아키텍처는 다음과 같은 구성 요소를 포함합니다:

• 합성곱층 (Convolutional Layers):
처음에는 3D 커널 크기 5, 스트라이드 1, valid 패딩 및 16개 출력 채널을 갖춘 합성곱층이 있으며, 이어서 커널 크기 5, 스트라이드 2, valid 패딩 및 각각 32와 64개의 출력 채널을 갖춘 두 개의 합성곱층이 추가됩니다.

• 합성곱 캡슐층 (Convolutional Capsule Layers):
세 개의 합성곱 캡슐층이 뒤따르며, 각 층은 8개의 원자로 구성된 32개의 합성곱 캡슐을 출력합니다. 각 합성곱 캡슐층의 캡슐 그리드 크기는 해당 층의 합성곱 연산에서 생성된 특성 맵의 크기와 동일하며, 그리드 내 캡슐의 수는 이 그리드의 크기와 같습니다.

• 캡슐층 아키텍처:
각 캡슐층의 3D 커널 크기는 3, 스트라이드는 2, 패딩은 1로 설정됩니다. CapsNet의 아키텍처는 아래 그림 2에 나타나 있습니다. 여기서 첫 번째 합성곱 캡슐층은 전통적인 합성곱층에서 출력된 결과를 입력으로 받기 때문에 합성곱 캡슐 수는 1로 설정됩니다.

profile
수학과 대학원생. 한 걸음씩 꾸준히

0개의 댓글