https://www.science.org/doi/10.1126/science.adp1779
기존 단백질 설계는 평탄하고 극성인 표면을 가진 표적(TNFR1 등)에 대해 형상 적합성(shape complementarity)이 낮아서 결합체 설계에 실패해왔음
제한된 길이(예: 65-residue scaffold)와 기존 scaffold를 기반으로 한 설계는 접촉면이 작고 다양성 부족
-> 멀리 떨어진 소수성 표면을 동시에 커버하기가 불가능
-> 그래서 넓고 평평한 TNFR1 표면은 기존 방식으로는 바인더 설계가 실패했었음
RFdiffusion 기반의 scaffold-free 조건부 확산(target-conditioned diffusion) 으로 TNFR 수용체 계열에 대한 고친화도 바인더를 설계하는 것
-> scaffold 없이 넓은 클라우드를 뿌리고,
RFdiffusion이 자연스럽게 구조를 형성하며 Hotspot(결합에 중요 역할을 하는 잔기들)을 연결하도록
1️⃣ 기존 방식 별로
2️⃣ TNFR1 결합 interface(넓고, 평평)
-> 이 interface 근처를 중심으로 residue를 흩뿌려놓음
(3D 공간에 랜덤하게 흩뿌려진 잔기들. 위치는 Gaussian 정규분포를 따라 무작위로 생성)
시작할 때는 단백질 구조가 없는 상태 (확산 모델은 noise에서 시작하므로)
= 랜덤 노이즈 상태의 잔기 클라우드를 확산
대신, 아미노산 120개짜리 덩어리를 3D 공간 위에 무작위로 배치해놓음
-> 이것이 residue cloud, 즉 아미노산 구름
→ TNFR1의 표면에는 소수성 잔기(hydrophobic residues)가 넓게 흩어져 있으므로, 이 형상에 맞춤 구조 형성
-> 기존 설계 방식보다 매우 큰 접촉면 (CMS) 확보
-> RFdiffusion에게 이 위치들을 잘 감싸는(가능한 많이 접촉하는) 단백질 구조를 만들어라고 유도(bias)했음
너무 엉뚱한 위치가 아니라, 타깃(TNFR1)의 결합면 근처를 중심으로 확률적으로 흩어지게 하기 위함
3️⃣ RFdiffusion으로, 이 소수성 잔기들과 최대한 접촉핟로록 단백질 구조 생성
4️⃣ 이를 ProteinMPNN으로 서열화 -> 이 서열을 다시 Alphafold로 구조를 만들어 유의미한지 확인
5️⃣ affinity 최적화를 위해 partial diffusion 방법 사용
-> 기존 설계에 약간의 노이즈를 더한 후 다시 denoising하여 affinity 최적화
6️⃣ 이는 검증된 구조에 15 ~ 25 step 정도 noise를 주고
(완전히 무너뜨리진 않음)
-> 부분적으로 흐리게(noise) 만들고 다시 회복 시키는 것
기존 구조가 타깃 표면에 맞긴 하지만 완전히 shape-matched는 아님
partial diffusion을 통해 조금 다른 구조들을 많이 만들어서,
그중 binding interface가 더 잘 맞는 구조를 찾을 수 있음
7️⃣ 이를 다시 RFdiffusion으로 denoise 하여 비슷하지만 새로운 구조를 만들어내는 것
-> 만들어진 새로운 구조 중 가장 적합한 것을 고름(당연히 구조는 여러개 만들어야하고, 만들어짐)
-> KD가 25 nM → <10 pM으로 약 1000배 향상
8️⃣ 이렇게 새로운 구조를 만들고, 이를 다시 ProteinMPNN과 Alphafold로 재검증 했을때, 더 좋은 성능을 가진 구조가 나옴
9️⃣ 타깃 특이성 변경
TNFR1 바인더를 TNFR2, OX40, 4-1BB에 맞게 재설계 (Partial diffusion만으로 가능)
-> 단일 설계 바인더를 partial diffusion으로 다른 수용체에 맞춤 전환 가능
1️⃣ 구조적 안정성 -> 잘 접히냐
2️⃣ 결합 적합성 -> binding affinity 잘 맞냐
3️⃣ binding affinity -> 결합 친화도가 높냐
In silico 단백질 디자인으로 TNF 수용체 계열 같은 “hard target”에 대해, 실험적 스크리닝이나 면역기반 접근 과정 없이
고친화도·고특이성 억제제/활성제 개발 가능성 제시
TNF 수용체 계열은 구조적으로 평탄하고 극성 표면을 갖고 있어 기존 단백질 디자인 방식으로는 높은 친화력 억제제 개발이 어려움
Noise 로부터 free diffusion(자유 Diffusion) 기반으로 타깃 결합에 최적화된 모양을 갖춘 단백질 바인더를 설계
이후 partial diffusion(부분 Diffusion) 과정을 거쳐 친화력/특이도 최적화
구조 안정성과 표현을 담당하는 단백질 기본 뼈대 구조
즉, 특정 기능(예: 표적 단백질과의 결합)을 수행할 수 있도록 기초가 되는 안정적인 단백질 구조 프레임워크를 의미
여기에 binding motif (결합 부위)를 심음
이 논문에서는 diffusion 모델을 사용해서
TNFR1 같은 수용체에 맞춰진 결합 부위를 형성할 수 있는 scaffold 구조 자체를 생성하고,
이후 partial diffusion을 통해 결합 친화력/특이성까지 최적화함
→ 즉, 기존 scaffold에 기능을 덧붙이는 게 아니라, 아예 target binding을 고려한 scaffold 자체를 만들어냄
단백질 구조를 생성하는 딥러닝 기반 확산 모델
"RoseTTAFold + Diffusion"
RFdiffusion이 구조와 서열 생성
→ 예: binder1.pdb 구조 + sequence1
AlphaFold2/3로 구조 예측
→ sequence1을 AlphaFold에 넣었더니 RFdiffusion 구조랑 거의 동일한 구조가 나왔다 → 접힘 신뢰성 OK
ProteinMPNN로 역검증
→ binder1.pdb를 ProteinMPNN에 넣고 서열을 다시 생성
→ 나오는 서열이 sequence1과 매우 비슷하다면 그 서열은 그 구조에 잘 맞는 low-energy native-like sequence
Alphafold를 통해, 구조가 실제로 안정하게 fold 되는지 확인
-> Alphafold 지표가 좋지 않은 것들은, output인 PDB 파일의 interface 좌표 비교를 통해 재검수
But, de novo 설계 -> 우리가 만든 구조는 자연에 존재하지 않음 → native 구조 없음
AlphaFold 결과 중 지표가 가장 좋은 구조를 골라서 그것을 기준으로 설정
1️⃣ Alphafold로 얻은 complex에서 항체와 TNFR을 분리
2️⃣ 그 후, 항체를 다시 Docking Tool로 TNFR에 도킹
-> 이 과정에서 당연히 여러 개 Docking output 생성해야함
이렇게 했을 때, Docking interface가 예상 결과와 일치하는 경우는 Positive Data로 사용 가능
->
이때, Docking 과정의 3단계에서, 전 단계는 되지만, 이후 단계는 안 되는 서열들을 엄밀히 구분 한 후 이 데이터들도 필수로 구분하여 Classifier 엄밀히 생성
| 지표 | 의미 | 기준값 | 해석 |
|---|---|---|---|
| pLDDT (per-residue confidence) | 개별 아미노산의 위치 신뢰도 (0~100) | >85: 매우 안정 70~85: 접힘은 함 | 구조의 local 정확도 |
| PAE (Predicted Aligned Error) | 두 residue 사이 거리 예측 오차 | <5Å (특히 인터페이스 부위) | 구조의 global/상대 위치 정확도 |
| ipTM (inter-chain predicted TM-score) | 복합체 구조에서 chain 간 정렬 신뢰도 | >0.7: 결합 예상됨 | 복합체 예측 시 중요 |
| pTM | 단일체의 전체 구조 신뢰도 (TM-score 기반) | >0.7 | 구조 전체 정확도 (전체 fold 완성도) |
✅ 단일 단백질일 경우
✅ 복합체(예: 타깃 + 바인더)일 경우
인간의 면역원성에 저해되지 않도록, 서열을 사람과 가깝게 변경 + 구조는 유지
-> 만든 Mouse의 CDR3 서열을, Human antibody framework와 결합 후 구조 재확인
비인간 항체/단백질을 사람에게 투여해도 면역반응이 적게 나도록 변형하는 작업
그대로 쓸 경우 면역원성(immunogenicity) 발생 가능 (우리 몸이 이물질로 인식)
humanization을 통해 서열 일부가 변경되면,
AlphaFold2로 다시 예측해서 pLDDT / PAE가 유지되는지 확인해야함