[NLP] CS25 V5 6강 정리 [Multimodal World Models for Drug Discovery]

김성윤(Jack)·2025년 12월 24일

목록 보기

33/35

본 강의는 Noetik.ai의 ML 과학자인 Eshed Margalit이 진행하였으며, 신경과학적 관점과 머신러닝 기술을 결합하여 암 치료를 위한 멀티모달 월드 모델(Multimodal World Models)을 구축하는 방법을 다룹니다.

1. 멀티모달 학습의 기초와 월드 모델 (World Models)

1.1. 멀티모달 학습의 개념적 프레임워크

AI의 통합 목표: AI의 핵심 목표 중 하나는 관찰된 현재 상태를 바탕으로 미래 상태를 시뮬레이션하고, 특정 행동이 미래에 미칠 영향을 예측하는 월드 모델(World Model)을 구축하는 것입니다.
멀티모달의 필요성: 인간과 기계의 월드 모델은 세상을 멀티모달 방식으로 인식합니다. 예를 들어 도로 상황을 파악할 때 시각 정보뿐만 아니라 오디오 스트림, 텍스트 캡션 등을 결합하여 더 정확한 의사결정을 내립니다.
두 가지 주요 목적:
- 번역(Translation): 한 모달리티의 정보를 다른 모달리티로 캡처하는 것 (예: 텍스트-투-이미지 시스템).
- 명확화(Disambiguation): 하나의 모달리티에서 부족한 정보를 다른 모달리티를 통해 보완하여 모호성을 해소하는 것 (예: 사람들이 뛰는 모습을 보고 사이렌 소리를 들어 화재임을 인지).

1.2. 멀티모달 정보 결합 방식 (Fusion Strategies)

강의에서는 모달리티를 결합하는 5가지 주요 방식을 소개합니다:

공동 임베딩 공간 학습 (Joint Embedding Spaces): CLIP과 같이 대조 학습(Contrastive Learning)을 통해 이미지와 텍스트의 임베딩을 유사하게 만듭니다. ImageBind는 이미지를 앵커로 삼아 오디오, 깊이 맵 등 다양한 모달리티를 하나의 공간에 묶습니다.
원시 입력 결합 (Raw Input Concatenation): RGB 이미지에 깊이 채널을 추가하는 것처럼 입력 단계에서 직접 결합하는 초기가 결합 방식입니다.
교차 주의 집중 (Cross Attention): 트랜스포머 아키텍처에서 한 스트림은 Query(Q)를 제공하고, 다른 스트림은 Key(K)와 Value(V)를 제공하여 중간 단계에서 정보를 융합합니다.
토큰 연결 (Token Concatenation): 모든 모달리티를 토큰화한 후 하나의 시퀀스로 이어 붙이는 방식입니다 (예: ViT의 클래스 토큰, DALL-E 1).
적응형 레이어 정규화 (Adaptive Layer Norm, AdaLN): 조건화 정보를 선형 레이어를 통해 스칼라 파라미터( $\alpha, \beta, \gamma$ )로 변환하여 레이어 정규화 과정에 주입하는 매우 효율적인 방식입니다.

[심화 학습: 트랜스포머 기반 멀티모달 융합]

기술적 배경: 초기 멀티모달 모델은 단순한 Late Fusion(결과값 평균 등)에 의존했으나, 트랜스포머의 등장으로 Attention 메커니즘을 통한 세밀한 상호작용이 가능해졌습니다.

최신 동향: 최근에는 AdaLN과 같은 방식이 확산 모델(Diffusion Models)의 조건화(Conditioning)에 널리 쓰이며, 파라미터 효율성을 극대화하고 있습니다.

한계점: 토큰 연결 방식은 시퀀스 길이가 길어질수록 연산 복잡도가 제곱으로 증가하는 문제가 있으며, 서로 다른 해상도의 모달리티를 정렬하는 데 여전히 어려움이 존재합니다.

2. 암 생물학에 대한 트랜스포머의 적용

2.1. 암 면역학 기초 (Cancer Immunology)

암세포는 면역 시스템을 피하거나 억제하도록 진화합니다.
면역 요법(Immunotherapy)의 목적은 이러한 억제 기커니즘을 제거하고 면역 세포가 암세포를 다시 공격하도록 활성화하는 것입니다.
Noetik의 목표: 환자의 생물학적 데이터를 기반으로 특정 약물이 효과가 있을지 시뮬레이션하는 월드 모델을 만드는 것입니다.

2.2. 데이터 센서와 수집 (Data Sensors)

Noetik은 환자의 종양 샘플에서 네 가지 주요 파이프라인을 통해 데이터를 수집합니다:

H&E 이미지: 조직의 형태학적 구조를 보여주는 보편적이고 저렴한 RGB 이미지입니다.
면역형광 (Immunofluorescence, IF): 16가지 단백질의 구성을 감지하는 다채널 이미지입니다.
공간 전사체학 (Spatial Transcriptomics): Cosmix 플랫폼을 사용해 약 1,000개(최대 18,000개) 유전자의 RNA 전사체 위치를 XY 좌표로 탐지합니다.
유전체 시퀀싱: 환자의 유전적 돌연변이를 파악합니다.

3. Octo 모델: 생물학적 월드 모델 구축

3.1. 모델 아키텍처: 마스크 오토인코더 (MAE)

학습 방식: 유전자 발현 데이터의 토큰 중 90% 이상을 마스킹하고 모델이 이를 예측하게 합니다. 이는 모델이 아주 적은 정보로도 근본적인 생물학적 규칙을 학습하도록 강제하는 매우 어려운 작업입니다.
수학적 구조: 입력 유전자 $G$ 와 발현 수준 $E$ 를 토큰화하여 입력하며, 손실 함수는 마스킹된 토큰의 예측 정확도를 최대화하는 방향으로 설계됩니다.

3.2. 멀티모달 통합 및 시뮬레이션

공간적 맥락 (Spatial Context): 특정 세포의 유전자 발현을 예측할 때 주변 8개 이웃 세포의 정보를 트랜스포머 보틀넥을 통해 추출하여 AdaLN 방식으로 주입합니다.
가상 세포 시뮬레이션: 특정 위치에 특정 면역 세포가 있을 때 어떤 반응이 일어날지 수십억 번의 가상 시뮬레이션을 수행합니다.
반사실적 시뮬레이션 (Counterfactual Simulations): "만약 이 유전자를 억제하는 약물을 투여한다면?"이라는 질문에 대해 입력 데이터를 수정하고 모델의 출력 변화(예: 킬러 T세포 활성화 정도)를 관찰합니다.

3.3. H&E에서 전사체로의 번역 (Translation)

저렴한 H&E 이미지만 입력받아 비싼 공간 전사체 데이터를 예측(Imputation)할 수 있습니다.
학습 시에는 두 데이터를 쌍으로 학습시키고, 추론 시에는 전사체 데이터를 모두 마스킹한 채 이미지 정보만 사용하여 전사체 지도를 생성합니다.

[심화 학습: 생물학적 MAE (Masked Autoencoders)]

기술적 배경: MAE는 원래 비전 분야에서 자기지도 학습으로 성공을 거두었으나, Noetik은 이를 희소(Sparse)하고 복잡한 유전자 데이터에 적용했습니다.

최신 동향: 단순히 세포 단위의 모델링을 넘어, 세포 분할 없이 원시 포인트 클라우드(Point Cloud) 데이터를 직접 처리하는 방향으로 발전하고 있습니다.

명확한 한계점: 시뮬레이션 모델은 인비트로(in-vitro) 또는 가상 환경의 예측일 뿐, 실제 생체 내(in-vivo)에서의 복잡한 약물 대사 및 부작용을 완벽히 대체하기에는 아직 데이터의 스냅샷적 특성이 한계로 작용합니다.

4. 연구의 미래와 해석 가능성

해석 가능성 (Interpretability): Sparse Autoencoders를 사용하여 모델 내부에서 반복적으로 나타나는 생물학적 개념(Bean)을 추출하고, 이를 통해 자동화된 시맨틱 세그멘테이션 인터페이스를 구축합니다.
원시 데이터 모델링: 세포라는 인위적인 단위에 얽매이지 않고 1,000만 개 이상의 RNA 포인트 클라우드에서 직접 학습하는 모델을 개발 중입니다.
결론: 암 생물학은 멀티모달 ML 연구를 위한 거대한 놀이터이며, 다양한 공간적 척도의 데이터를 통합하는 월드 모델이 신약 개발의 핵심이 될 것입니다.

5. Q&A 섹션

질문 1: 마스킹 비율을 90%로 높게 잡는 특별한 이유가 있나요?

답변: 두 가지 이점이 있습니다. 첫째, 학습 시 과제를 매우 어렵게 만들어 모델이 단순한 패턴 암기가 아닌 근본적인 환자 생물학을 배우게 합니다. 둘째, 추론 시 마스킹 비율을 100%로 높여도 모델이 당황하지 않고 주변 맥락(이미지 등)만으로 예측을 수행할 수 있게 합니다.

질문 2: 환자 데이터의 프라이버시(HIPAA 등)와 데이터 사일로 문제는 어떻게 해결하나요?

답변: 병원이 직접 모델을 실행할 수 있도록 오픈 소스 방법론을 제공하거나, 보안이 유지되는 서비스 형태의 프로세싱, 또는 공식적인 파트너십을 통해 데이터를 안전하게 처리하는 방식 등을 고려할 수 있습니다.

질문 3: 모델이 임상 시험을 완전히 대체할 수 있을까요?

답변: 임상 시험의 초기 단계(필터링)를 시뮬레이션으로 대체하여 효율성을 높일 수는 있지만, 인간에 대한 안전성과 효능 증명은 결국 실제 임상을 거쳐야 합니다. 모델은 실패할 가능성이 높은 약물을 미리 걸러내거나 적절한 환자군을 찾는 데 큰 도움을 줍니다.

질문 4: AI 에이전트가 스스로 실험을 설계하고 실행하는 미래를 어떻게 보시나요?

답변: 현재 LLM은 과학 문헌을 모두 학습했으므로 도구 사용(Tool Use) 기능을 결합하면 가상 과학자로서 실험을 제안할 수 있습니다. 다만 현재는 과학자들이 몇 분 만에 생각할 수 있는 수준 이상의 혁신적인 실험을 제안하는 단계는 아니지만, 매우 낙관적으로 보고 있습니다.

💡 비유로 이해하기:
이 멀티모달 월드 모델은 '생물학적 비행 시뮬레이터'와 같습니다. 실제 비행기(환자)를 띄우기 전에 가상 세계에서 다양한 기상 조건(약물 투여, 유전자 변이)을 설정해보고, 어떤 조작이 안전하고 효과적인지 수만 번 연습해본 뒤 실제 비행 경로를 결정하는 것과 같은 원리입니다.