[논문 리뷰] MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding

정우현·2025년 7월 23일

서울대

목록 보기
11/38

💡 주제

기존 단백질 언어 모델(PLM)에 구조 정보를 효율적으로 통합하기 위한 새로운 모델 MULAN

ESM2 등 기존 sequence-only PLM 위에
구조 정보를 통합할 수 있는 lightweight adapter를 추가하여,
구조 인식 능력을 크게 향상시키면서도 파라미터 및 연산 비용을 최소화


✅ 연구 배경 및 문제의식

단백질의 기능은 3D 구조에 의해 결정되며, 3D 구조는 아미노산 서열로부터 형성됨

단백질 서열이 텍스트처럼 다뤄질 수 있어 NLP 기반의 Protein Language Model (PLM) 적용이 가능해짐.

ESM2, ProtTrans, Ankh 같은 sequence-only PLM은 뛰어난 성능을 보였으나,

구조 정보를 내재적으로 학습하는 데 한계가 있음.

ex)
AlphaFold2 (구조 기반)는 ESMFold (서열-only 모델)보다 훨씬 더 나은 성능을 보임.

✅ 기존의 구조 기반 모델의 한계

최근 등장한 구조 기반 PLM (= SPLM) (ex. SaProt, ESM3)은 구조 정보를 포함시켜 더 높은 성능을 보임.

하지만 대부분 처음부터 학습해야 하며,
구조 encoder가 매우 크고 복잡해서 학습/추론 비용이 큼.


✅ MULAN(Multimodal Protein Language Model) 모델 제안

기존 PLM 위에 경량 구조 모듈인 Structure Adapter를 추가.

구조 정보를 torsion angle (ϕ, ψ, χ1~5) 형태로 입력 받아,

기존 PLM의 residue 임베딩에 더해주는 방식.

사전학습된 PLM을 재활용하여 학습 비용을 절감.


✅ 성능 향상 확인

MULAN을 ESM2 및 SaProt 다양한 크기의 모델에 적용.

총 9가지 downstream task에서 평가

특히 Protein–Protein Interaction (PPI) task에서 최대 AUROC 0.12 향상.

MULAN은 secondary structure가 잘 분리됨 → 구조 인식 능력이 강함

ESM2는 대부분의 구조 유형이 서로 섞여 있음

MULAN은 아미노산 구분 정보도 유지하고 있음 (기존 PLM의 sequence 인식 성능 보존)


✅ 구조 정보 입력 (Structural Information)

각 residue에 대해 다음과 같은 torsion angle vector를 생성

[ϕ, ψ, χ1 , χ2, χ3, χ4, χ5]

  • ϕ, ψ: backbone torsion angles
  • χ₁~χ₅: side chain torsion angles
    (ex. arginine은 최대 5개)

미정의된 각도 (ex. N- or C-terminal, 존재하지 않는 χ₃~χ₅ 등)는 #으로 마스킹된 padding 값으로 채워짐.

ϕ, ψ, χ₁~χ₅ 이 각도들은 회전 및 병진 불변 (rotation & translation invariant)하므로 Transformer에 적합함.


🖐 rotation & translation invariant 란?

이 각도들은 구조가 어떻게 공간상에서 회전하거나 이동하든 값 자체는 변하지 않음.

따라서 구조 자체를 Transformer에 입력할 때 절대 좌표(x, y, z) 대신에 torsion angle을 사용하는 것은
모델이 더 일반적인 구조 패턴을 학습할 수 있게 해줌

이느 좌표 시스템에 종속되지 않는 강건한 구조 표현 방식


✅ 구조 어댑터 (Structure Adapter) 구성

1️⃣ 입력: 서열과 torsion angle 벡터, pLDDT

2️⃣ 구조 adapter: MLP → Transformer → structure embedding 생성

  • MLP: angle vector (N×7)를 h차원의 embedding으로 투영
  • Transformer: Rotary positional encoding을 포함

-> 결과적으로 N × h 구조 embedding이 생성됨

3️⃣ Embedding 융합: structure embedding + ESM2 embedding → ESM2 전달

이 구조 임베딩은 ESM2의 residue embedding과 더해짐

이렇게 sequence + structure 정보를 융합한 embedding이 최종적으로 ESM2로 전달됨

4️⃣ MLM 학습: LM Head를 통해 마스킹된 residue 예측


✅ 학습 전략 (Training Procedure)

✅ Pretraining 기반

기존의 사전학습된 ESM2를 가져와 finetuning 진행

구조 정보는 추가적으로 학습되는 정보이며, 기존 PLM의 성능은 보존됨


✅ MLM (Masked Language Modeling) 사용

전체 서열 중 15% residue는 마스킹

▶ 서열 마스킹
전체 residue 중 15%는 서열(R, K, E 같은 아미노산 문자)을 마스킹

▶ 구조 각도 마스킹
이 마스킹된 서열에 대응하는 torsion angle도 함께 마스킹하거나 변형

즉, 서열과 각도 정보는 항상 짝지어서 mask 처리

마스킹된 residue의 torsion angle은 아래 세 가지 중 하나로 처리

  • 각도 마스킹 (mask value 사용) -> 80%
  • 랜덤 angle vector로 교체 -> 10%
  • 변경 없음 -> 10%

마스킹 값은 ±4로 설정되어 실제 각도 범위 (−π~π)와 구분됨

🖐 각도 구분이란?

일반적으로 각도는 −π ~ π (약 −3.14 ~ +3.14) 범위에 존재

마스킹할 때는 이 실제 범위에 존재하지 않는 수 (예: ±4) 를 사용하면,

모델이 “이건 진짜 angle이 아니라 마스킹된 값이다”라고 명확하게 구분할 수 있음

진짜 torsion angle: -3.0 ~ +3.0 (radians)
마스킹된 angle vector: +4.0 또는 -4.0로 세팅

이렇게 하면 모델은 해당 angle을 구조 예측 학습 중 예측 대상(target)으로 처리하게 되고,
실제 angle 분포와 혼동되지 않게 됨


✅ 신뢰도 기반 구조 마스킹 (pLDDT)

AlphaFold2의 pLDDT (predicted Local Distance Difference Test) score 사용 (0–100)

pLDDT < 70인 residue의 구조 각도는 신뢰도 낮은 구조로 간주하고 masking

→ 모델이 노이즈 구조로 학습되지 않도록 방지


✅ 평가 대상 Task (총 9개 + 구조 인식)

MULAN은 다음과 같은 9가지 주요 downstream task와 부가적인 구조 인식 평가(secondary structure prediction)에 대해 성능을 평가

분류Task설명
BinaryHumanPPI
Metal Ion Binding
단백질-단백질 상호작용 여부, 금속 결합 예측
MulticlassLocalization (10-class 및 binary)단백질 세포 내 위치 분류
RegressionThermostability
Fluorescence
온도 안정성, 형광 밝기
MultilabelGO Annotation (Gene Ontology: CC, MF, BP)생물학적 기능 주석 예측 (복수 정답 가능)
Structural AwarenessSecondary Structure Prediction구조 정보를 직접적으로 반영하는 평가 지표

각 task는 기존 benchmark에서 가져왔으며, original data split을 유지함.

✅ 구조 정보 확보 방식

AlphaFold2 DB에서 UniProt accession 번호로 구조 정보를 조회

PDB ID → UniProt ID로 매핑하여 구조 정보를 자동 수집

없을 경우 AlphaFold2 standalone 버전으로 예측 수행

Secondary structure task의 경우는 실험적으로 확인된 PDB 구조만 사용


✅ Downstream Task 평가 방식

✅ 임베딩 추출

각 모델의 최종 레이어에서 residue-level 임베딩 추출

protein-level task의 경우 평균 풀링(average pooling) 적용


✅ 예측 모델

downstream task는 Light Attention architecture를 사용
→ MLP보다 성능이 뛰어남
→ protein embedding에 특화되어 설계된 구조


✅ 학습 세부 설정

고정된 하이퍼파라미터 그리드를 사용 (모든 task 공통)

  • Optimizer: AdamW
  • β₁ = 0.9, β₂ = 0.999
  • learning rate = 5e−5 (일부 task에선 1e−5 ~ 1e−4 범위)
  • batch size: 8192
  • 학습 epoch: 최대 200 epoch
    → validation 성능 기준으로 best checkpoint 선택

🖐 Hybrid sequence–structure model 이란?

단백질 서열(sequence) 정보와 구조(structure) 정보를 동시에 사용하는 모델.

단일 modality (ex. 서열-only)보다 더 정확하게 단백질 특성을 학습할 수 있음.

  • S-PLM: sequence와 구조 contact map을 contrastive learning 방식으로 함께 학습

  • PST: Transformer와 graph encoder를 조합한 구조 인식 모델

이것들과 비교해서도 MULAN이 경쟁력 있음


✅ MULAN은 ESM2에서 특히 효과적

MULAN-ESM (sequence-only PLM + 구조 adapter) 모델이 일반적으로 MULAN-SaProt보다 더 큰 향상 폭을 보임.

그 이유는 SaProt은 이미 구조 정보를 사용하는 반면, ESM2는 순수 서열 모델이기 때문에 구조 adapter 추가의 효과가 더 큼.

MULAN은 기존 PLM의 구조 인식을 싸고 효율적으로 강화할 수 있음

✅ SaProt에도 추가적인 성능 향상이 존재

SaProt은 이미 Foldseek 기반 구조 표현(3Di alphabet)을 사용하는 모델이지만,

MULAN의 torsion angle 기반 구조 adapter를 추가하면
특히 PPI 예측 task에서 성능이 더 향상됨.

→ 두 방식이 서로 보완적인 구조 정보를 제공할 수 있음을 시사.

✅ MULAN은 다른 최상위 SPLM들과 경쟁 가능하다

MULAN은 ESM2 8M 위에 올려도 ProteinBert 16M보다 성능이 더 좋음.

큰 모델(MULAN-L)은 PST, ProstT5, ESM3 등 SOTA 모델들과 비슷한 수준의 성능을 보임.

각 모델이 잘하는 downstream task는 다르지만, MULAN은 전체적으로 경쟁력 있음.

또한, 가볍고 효율적인 구조 adapter 하나만으로도 기존의 복잡한 SPLM들과 비슷한 성능을 낼 수 있음

항목MULANSOTA SPLMs (PST, S-PLM, ESM3 등)
학습 시간1 GPU로 최대 3일수 주~수 개월
파라미터 증가량0.3% (MULAN-L 기준)PST: 69%, S-PLM: 13.8%
연산 속도빠름 (lightweight)느림 (구조 encoder 크고 복잡)
GPU 요구량낮음높음

✅ Structure Adapter의 중요성

MULAN의 성능 향상은 단순한 finetuning 때문이 아니라 Structure Adapter 덕분

실험 비교결과
ESM2 (baseline)기본 성능
ESM2 + finetuning (MULAN 데이터셋으로만 학습)거의 성능 향상 없음
MULAN-ESM2 (ESM2 + StructureAdapter)명확한 성능 향상

단순히 ESM2를 구조 데이터셋으로 미세조정한다고 성능이 올라가지 않으며, 구조 정보를 처리하는 구조 (Adapter) 가 있어야 효과가 나타남

✅ pLDDT 마스킹의 효과 (Uncertain residue masking)

AlphaFold2 구조에서 신뢰도 낮은 잔기(pLDDT < 70)는 masking 하는 것이 좋음

실험 비교결과
MULAN (pLDDT < 70 masking 포함)더 나은 성능
MULAN without pLDDT masking성능 감소

➡️ 노이즈 있는 각도 정보를 제거하면 대부분의 downstream task에서 성능 향상 → 입력의 신뢰도 필터링이 중요

마스킹을 하지 않은 경우(without pLDDT)는 일부 지표에서 낮아짐

노이즈 제거로 성능 향상 가능하다는 것을 의미

✅ Scratch부터 학습하면 성능 저하 (Pretraining 필요성)

MULAN을 random 초기화해서 구조-서열을 학습시키면 ESM2보다도 낮은 성능이 나옴

실험 비교결과
MULAN (ESM2 pretrain 후 구조 적응)매우 좋은 성능
MULAN (from scratch, random 초기화)성능 저조

➡️ 사전학습(pretraining)된 서열 언어모델의 사전 지식이 매우 중요
→ 구조 정보는 기존 PLM 위에 덧붙이는 형식이 바람직

✅ Architecture Ablation (구조적 변형 실험)

다양한 구조 변형을 실험했으나, 기존 MULAN 구조보다 좋은 결과를 내지 못함

시도한 방식결과
Foldseek 임베딩 추가큰 성능 향상 없음
Contact prediction head 추가동일
Angle prediction head 추가동일

➡️ 현재의 MULAN 구조가 최적 구조에 가까움, 복잡한 구조 추가는 효과 미미

✅ Secondary Structure Prediction (2차 구조 예측 능력 실험)

MULAN이 실제로 3D 구조 정보를 사용하고 있는지 검증

실험 세부사항
CASP12, TS115, CB513 dataset 사용
실험 구조 (X-ray/NMR 기반) 사용하여 AlphaFold의 pLDDT 마스킹은 적용 안 함
각 residue의 angle 정보만 사용하여 secondary structure 예측 수행

MULAN이 ESM2보다 2차 구조 예측 성능이 월등히 높음

Foldseek 기반 모델(SaProt)처럼 구조 인식 가능

➡️ 구조적 awareness 확인 완료

✅ ESM2 / SaProt / MULAN 모델이 2차 구조 예측 (secondary structure prediction)을 얼마나 잘 수행하는지 비교

세 개의 데이터셋 사용: CASP12, TS115, CB513

평가 지표: 3-state accuracy (H/E/C 구분)와 8-state accuracy

→ SaProt 기반 MULAN이 ESM2보다도 성능 좋음
→ 사전학습된 SaProt + StructureAdapter 조합이 매우 강력

✅ 1. Visualization: 구조 인식 능력 시각화 (t-SNE)

t-SNE 시각화를 통해 각 모델이 구조/물리적 특성을 얼마나 잘 인식하는지를 시각적으로 평가

  • 데이터셋: CASP12
  • ESM2 8M vs. MULAN-ESM2 S 비교
  • 시각화 방법: t-SNE

1️⃣ 실험 구성
마지막 레이어의 residue-level embedding 사용

왼쪽 그림: 아미노산 타입으로 색칠

오른쪽 그림: 3-state secondary structure 타입으로 색칠

2️⃣ 결과 해석

MULAN은 secondary structure를 더 잘 인식함

같은 아미노산 그룹 내에서도 helix/sheet/coil 등이 분리됨

ESM2는 그런 구분이 잘 안 됨

하지만 MULAN도 ESM2에서 학습한 아미노산 특성은 유지

즉, 서열 정보와 구조 정보 모두 학습됨

✅ 2. Sequence-based vs. Structure-informed Models 비교

1️⃣ Sequence-based PLMs

아미노산 서열 = 언어의 문장 → 자연어처리(NLP) 기법이 효과적

대부분의 PLM은 Masked Language Modeling (MLM) 방식으로 사전학습됨

주요 모델들: ESM2, Ankh, ProtT5, TAPE, 등

수행 가능한 작업: 2차 구조 예측, 접촉 지도(contact map), 위치 예측, 돌연변이 영향 예측 등

2️⃣ 구조 인식(Structure-informed) PLMs

아미노산 서열만으로는 3D 구조와 기능 정보를 완전히 추론하기 어렵다

구조 정보는 서열보다 더 보존성이 높다

모델명방법특이점
ProstT5Foldseek의 3Di structural alphabet 사용구조 문자를 서열처럼 변환하여 학습
SaProtAmino acid + 3Di alphabet 조합 사용구조 인식 향상, ESM2보다 좋은 성능
SES-AdapterAdapter 방식 + 구조 주석 사용general PLM 아님, task별 재학습 필요
ESM3Sequence + Structure + Function 통합 사전학습완전한 multi-modal pretraining

3️⃣ Hybrid Models (구조 기반 GNN 통합형 모델들)

단백질의 3차 구조는 그래프 형태로 해석 가능
→ 이를 활용해 PLM + GNN 통합 시도

이러한 모델들을 "하이브리드 모델"이라 부르며, 다양한 전략으로 구조 정보를 모델에 주입

전략설명예시
MLM only + GNN서열만 MLM으로 학습, 구조는 GNN으로 따로 처리Mansoor et al. 2021, Zheng et al. 2023
Masked Structure Modeling 추가서열과 구조를 모두 마스킹하여 학습LM-GVP, GearNet, MIF

모델명설명주요 특징
ESM-GearNet (Zhang et al. 2023)ESM2 서열 표현 + GearNet 구조 인코더 결합diffusion 기반 사전학습도 포함됨, 여러 task에서 성능 향상
DeProt (Li et al. 2024)각 residue 주변의 local 구조로 구조 인코딩GearNet과 유사한 접근
PST (Chen et al. 2024)PLM + GNN 통합 후 공동학습 (joint training)PLM self-attention 수정, 파라미터 수 PLM 수준
S-PLM (Wang et al. 2023)contrastive learning 방식, 구조 인코더는 Swin Transformercontact map 기반 구조 인식, 추론 시 구조 입력은 필요 없음

기존 hybrid 모델들은 대부분 GNN 기반 구조 인코더를 별도로 사용하거나
PLM 자체를 구조-aware 하게 변경

하지만 대부분 모델 크기 증가, 복잡한 joint training, 높은 계산량을 수반

profile
In-silico Antibody Design & Engineering Lab Researcher, Seoul National University

0개의 댓글