[논문 리뷰] Target-conditioned diffusion generates potent TNFR superfamily antagonists and agonists

정우현·2025년 6월 17일

서울대

목록 보기
2/38

https://www.science.org/doi/10.1126/science.adp1779

💡 요약

✅ 문제점

기존 단백질 설계는 평탄하고 극성인 표면을 가진 표적(TNFR1 등)에 대해 형상 적합성(shape complementarity)이 낮아서 결합체 설계에 실패해왔음

✅ 기존 한계

제한된 길이(예: 65-residue scaffold)와 기존 scaffold를 기반으로 한 설계는 접촉면이 작고 다양성 부족
-> 멀리 떨어진 소수성 표면을 동시에 커버하기가 불가능
-> 그래서 넓고 평평한 TNFR1 표면은 기존 방식으로는 바인더 설계가 실패했었음

✅ 목표

RFdiffusion 기반의 scaffold-free 조건부 확산(target-conditioned diffusion) 으로 TNFR 수용체 계열에 대한 고친화도 바인더를 설계하는 것
-> scaffold 없이 넓은 클라우드를 뿌리고,
RFdiffusion이 자연스럽게 구조를 형성하며 Hotspot(결합에 중요 역할을 하는 잔기들)을 연결하도록


✅ High Affinity 구조 생성


1️⃣ 기존 방식 별로

2️⃣ TNFR1 결합 interface(넓고, 평평)
-> 이 interface 근처를 중심으로 residue를 흩뿌려놓음
(3D 공간에 랜덤하게 흩뿌려진 잔기들. 위치는 Gaussian 정규분포를 따라 무작위로 생성)

시작할 때는 단백질 구조가 없는 상태 (확산 모델은 noise에서 시작하므로)
= 랜덤 노이즈 상태의 잔기 클라우드를 확산

대신, 아미노산 120개짜리 덩어리를 3D 공간 위에 무작위로 배치해놓음
-> 이것이 residue cloud, 즉 아미노산 구름
→ TNFR1의 표면에는 소수성 잔기(hydrophobic residues)가 넓게 흩어져 있으므로, 이 형상에 맞춤 구조 형성

-> 기존 설계 방식보다 매우 큰 접촉면 (CMS) 확보
-> RFdiffusion에게 이 위치들을 잘 감싸는(가능한 많이 접촉하는) 단백질 구조를 만들어라고 유도(bias)했음

💡 왜 Gaussian 분포를 쓰냐?

너무 엉뚱한 위치가 아니라, 타깃(TNFR1)의 결합면 근처를 중심으로 확률적으로 흩어지게 하기 위함


3️⃣ RFdiffusion으로, 이 소수성 잔기들과 최대한 접촉핟로록 단백질 구조 생성

4️⃣ 이를 ProteinMPNN으로 서열화 -> 이 서열을 다시 Alphafold로 구조를 만들어 유의미한지 확인

5️⃣ affinity 최적화를 위해 partial diffusion 방법 사용
-> 기존 설계에 약간의 노이즈를 더한 후 다시 denoising하여 affinity 최적화

6️⃣ 이는 검증된 구조에 15 ~ 25 step 정도 noise를 주고
(완전히 무너뜨리진 않음)
-> 부분적으로 흐리게(noise) 만들고 다시 회복 시키는 것

기존 구조가 타깃 표면에 맞긴 하지만 완전히 shape-matched는 아님
partial diffusion을 통해 조금 다른 구조들을 많이 만들어서,
그중 binding interface가 더 잘 맞는 구조를 찾을 수 있음

7️⃣ 이를 다시 RFdiffusion으로 denoise 하여 비슷하지만 새로운 구조를 만들어내는 것
-> 만들어진 새로운 구조 중 가장 적합한 것을 고름(당연히 구조는 여러개 만들어야하고, 만들어짐)
-> KD가 25 nM → <10 pM으로 약 1000배 향상

8️⃣ 이렇게 새로운 구조를 만들고, 이를 다시 ProteinMPNN과 Alphafold로 재검증 했을때, 더 좋은 성능을 가진 구조가 나옴

9️⃣ 타깃 특이성 변경
TNFR1 바인더를 TNFR2, OX40, 4-1BB에 맞게 재설계 (Partial diffusion만으로 가능)
-> 단일 설계 바인더를 partial diffusion으로 다른 수용체에 맞춤 전환 가능

🖐 더 좋은 성능을 가진 구조란?

1️⃣ 구조적 안정성 -> 잘 접히냐

2️⃣ 결합 적합성 -> binding affinity 잘 맞냐

3️⃣ binding affinity -> 결합 친화도가 높냐

🖐 의의

In silico 단백질 디자인으로 TNF 수용체 계열 같은 “hard target”에 대해, 실험적 스크리닝이나 면역기반 접근 과정 없이
고친화도·고특이성 억제제/활성제 개발 가능성 제시


🖐 TNFR1(TNF receptor 1) 란?

TNF 수용체 계열은 구조적으로 평탄하고 극성 표면을 갖고 있어 기존 단백질 디자인 방식으로는 높은 친화력 억제제 개발이 어려움

🖐 Target‑conditioned diffusion 이란?

Noise 로부터 free diffusion(자유 Diffusion) 기반으로 타깃 결합에 최적화된 모양을 갖춘 단백질 바인더를 설계

이후 partial diffusion(부분 Diffusion) 과정을 거쳐 친화력/특이도 최적화

🖐 Scaffold 란?

구조 안정성과 표현을 담당하는 단백질 기본 뼈대 구조
즉, 특정 기능(예: 표적 단백질과의 결합)을 수행할 수 있도록 기초가 되는 안정적인 단백질 구조 프레임워크를 의미

여기에 binding motif (결합 부위)를 심음

이 논문에서는 diffusion 모델을 사용해서

TNFR1 같은 수용체에 맞춰진 결합 부위를 형성할 수 있는 scaffold 구조 자체를 생성하고,
이후 partial diffusion을 통해 결합 친화력/특이성까지 최적화함
→ 즉, 기존 scaffold에 기능을 덧붙이는 게 아니라, 아예 target binding을 고려한 scaffold 자체를 만들어냄

🖐 RFdiffusion 이란?

단백질 구조를 생성하는 딥러닝 기반 확산 모델
"RoseTTAFold + Diffusion"

🖐 Alphafold 와 ProteinMPNN을 이용한 재검증이란?

  1. RFdiffusion이 구조와 서열 생성
    → 예: binder1.pdb 구조 + sequence1

  2. AlphaFold2/3로 구조 예측
    → sequence1을 AlphaFold에 넣었더니 RFdiffusion 구조랑 거의 동일한 구조가 나왔다 → 접힘 신뢰성 OK

  3. ProteinMPNN로 역검증
    → binder1.pdb를 ProteinMPNN에 넣고 서열을 다시 생성
    → 나오는 서열이 sequence1과 매우 비슷하다면 그 서열은 그 구조에 잘 맞는 low-energy native-like sequence

✅ Alphafold를 통한 구조 검증

Alphafold를 통해, 구조가 실제로 안정하게 fold 되는지 확인
-> Alphafold 지표가 좋지 않은 것들은, output인 PDB 파일의 interface 좌표 비교를 통해 재검수

But, de novo 설계 -> 우리가 만든 구조는 자연에 존재하지 않음 → native 구조 없음
AlphaFold 결과 중 지표가 가장 좋은 구조를 골라서 그것을 기준으로 설정


1️⃣ Alphafold로 얻은 complex에서 항체와 TNFR을 분리

2️⃣ 그 후, 항체를 다시 Docking Tool로 TNFR에 도킹
-> 이 과정에서 당연히 여러 개 Docking output 생성해야함

  • interface 주변으로 docking 하도록 제약준 후, cdr3만 도킹
  • interface 주변으로 docking 하도록 제약준 후, 전체 구조로 2차 도킹
  • interface 제약 주지 않고, 전체 구조 도킹
    -> 이때 docking 된 결과물이 원하는 집합으로 클러스터링 잘 되면 실세계에서 잘 될 확률 높은 것

이렇게 했을 때, Docking interface가 예상 결과와 일치하는 경우는 Positive Data로 사용 가능
->

  • Docking Complex 구조가 Alphafold 구조와 일치하는가
  • Binding interface가 동일한가?
  • DockQ Score가 음수 값인가?

🖐 RFdiffusion 과 Docking에서 얻은 많은 데이터를 Positive / Negative Data로 구분하여, CNN or Transformer Classifier를 만들어, 서열 or ESM embedding vector로 학습시키면 더 빠르게 검증할 수 있는 Classifier를 만들 수 있는가?

이때, Docking 과정의 3단계에서, 전 단계는 되지만, 이후 단계는 안 되는 서열들을 엄밀히 구분 한 후 이 데이터들도 필수로 구분하여 Classifier 엄밀히 생성

🖐 Alphafold 의 지표란?

지표의미기준값해석
pLDDT (per-residue confidence)개별 아미노산의 위치 신뢰도 (0~100)>85: 매우 안정
70~85: 접힘은 함
구조의 local 정확도
PAE (Predicted Aligned Error)두 residue 사이 거리 예측 오차<5Å (특히 인터페이스 부위)구조의 global/상대 위치 정확도
ipTM (inter-chain predicted TM-score)복합체 구조에서 chain 간 정렬 신뢰도>0.7: 결합 예상됨복합체 예측 시 중요
pTM단일체의 전체 구조 신뢰도 (TM-score 기반)>0.7구조 전체 정확도 (전체 fold 완성도)

✅ 단일 단백질일 경우

  • pLDDT > 85 → 대부분의 residue가 명확한 위치를 갖는다는 뜻
  • pTM > 0.7 → 전체 구조가 안정적으로 정렬됨

✅ 복합체(예: 타깃 + 바인더)일 경우

  • interface PAE < 5Å → 결합면 예측이 정확하다는 의미
  • ipTM > 0.7 → 바인더와 타깃이 제대로 결합했다고 볼 수 있음

✅ Humanization을 통해 인간화 항체로 만들기

인간의 면역원성에 저해되지 않도록, 서열을 사람과 가깝게 변경 + 구조는 유지
-> 만든 Mouse의 CDR3 서열을, Human antibody framework와 결합 후 구조 재확인

🖐 Humanization 란?

비인간 항체/단백질을 사람에게 투여해도 면역반응이 적게 나도록 변형하는 작업

그대로 쓸 경우 면역원성(immunogenicity) 발생 가능 (우리 몸이 이물질로 인식)

humanization을 통해 서열 일부가 변경되면,
AlphaFold2로 다시 예측해서 pLDDT / PAE가 유지되는지 확인해야함


profile
In-silico Antibody Design & Engineering Lab Researcher, Seoul National University

0개의 댓글