문제점: 자연 단백질은 기능에는 최적화되어 있지만, 대량 생산에는 적합하지 않음
-> 낮은 발현량, 낮은 용해도, 낮은 열안정성 등
ProteinMPNN의 장점
설계된 단백질 골격(backbone)에 대해 매우 안정적인 서열 생성 가능
자연 단백질의 구조(backbone)에 대해서도,
해당 구조로 접힐 가능성이 기존(native) 서열보다 더 높음
따라서, 이 논문에서는 ProteinMPNN을 자연 단백질의 안정성 최적화에 적용해 보기로 함
ProteinMPNN은 오직 구조 기반 설계 도구
단백질의 기능적 정보(예: 촉매 활성, 리간드 결합 등) 는 자체적으로 알지 못함
-> 따라서 기능을 보존하려면, 단순히 구조만으로 서열을 설계하는 것이 아니라 기능적 정보를 직접 반영해줘야 함
1️⃣ 활성 부위 또는 기질 결합 부위를 유지하기 위해 first-shell에 있는 잔기들의 아미노산을 고정(fix)
-> 결합 능력과 촉매 기능 유지를 위한 조치
단백질이 어떤 기능을 하려면, 특정 아미노산들이 정확한 위치에 있어야 함
효소
활성 부위(active site)라는 특별한 장소에서 반응을 일으킴
리간드나 기질(substrate)을 인식하고 결합하는 부위가 따로 존재
이 부위들에 있는 아미노산은 그 기능을 유지하는 데 꼭 필요
기능에 가장 밀접한 아미노산들
이 논문에서는 다음 기준으로 선정
"기질 또는 리간드와 7Å(옹스트롬) 이내에 위치한 아미노산"
리간드나 기질에 가장 가까운 아미노산들
즉 직접 닿거나 근접해서 상호작용하는 "첫 번째 껍질"에 있는 잔기들
2️⃣ TEV 프로테아제의 경우
진화적으로 보존된 잔기들도 고려해, 기능 유지에 중요한 핵심 잔기들을 더 정밀하게 골라 고정
-> 이는 단순 거리 기반(first shell) 고정보다 더 정교한 기능 보존 전략
3️⃣ Myoglobin의 경우
기능보다 구조적 안정성에 초점을 맞춰, 구조의 일부(루프 등)에 대해 제한적인 backbone 리모델링을 진행
->
구조적 불안정한 영역(loop 등)을 RoseTTAFold joint inpainting으로 다듬은 것
단백질 구조 중 일부 영역만 비워 놓고, 그 빈 자리를 자연스럽게 메우는 방식
->
루프(loop) 부분을 비워 두고, RoseTTAFold가 거기에 새롭고 더 안정적인 구조를 생성하게 한 것
4️⃣ 위에서 정의한 디자인 조건을 기반으로
ProteinMPNN으로 새로운 서열 생성
AlphaFold2로 각 서열의 구조 예측
예측된 구조의 정확도 필터링:
이 과정을 통해 기능을 유지하면서 구조적으로 신뢰도 높은 후보 서열을 선별

Myoglobin은 불안정하거나 덜 보존된 구조 가짐
그래서 이 덜 보존된 루프들을 골라서,
RoseTTAFold의 joint inpainting 기능을 써서 구조적으로 리모델링
이렇게 backbone(골격 구조)을 리모델링한 후,
ProteinMPNN을 사용해서 그 구조에 맞는 서열을 새로 디자인
단, heme-binding site에 있는 중요한 잔기들은 앞서 말했듯이 절대 바꾸지 않고 고정

x축 (rmsd): AlphaFold2로 예측한 구조와 설계 입력 구조 간의 Cα RMSD (backbone 기준 거리 차이)
-> 낮을수록 좋음 (더 비슷한 구조로 예측됨)
y축 (IDDT): AlphaFold2의 pLDDT 점수와 유사한 지표
-> 높을수록 구조 예측 신뢰도가 높음
1️⃣ ProteinMPNN alone(단백질 구조는 건드리지 않고, 서열만 새로 디자인한 경우)
많은 점들이 RMSD > 5, IDDT < 85 등 낮은 성능
AlphaFold2가 예측한 구조가 원래 구조랑 다르고, 자신도 없는 결과 많음
→ 구조 불안정한 루프는 고치지 않았기 때문
2️⃣ ProteinMPNN + inpainting
불안정한 루프(EF-loop)만 RoseTTAFold로 국소적으로 구조 수정(inpainting)하고 다시 서열 설계
점들이 왼쪽 위 방향으로 몰림
RMSD 낮고 IDDT 높아짐 → AlphaFold2도 설계 구조를 신뢰하게 됨
3️⃣ ProteinMPNN + extended inpainting
EF-loop + CD-loop, 더 확장된 루프까지 포함해서 더 과감하게 구조 수정
가장 왼쪽 위로 몰려 있음
설계 구조가 안정적으로 접힌다고 예측됨
성능 향상이 가장 뚜렷
그냥 서열만 바꾸면 구조가 흐트러질 수 있지만,
불안정한 루프 구조를 먼저 AI로 다듬고 나서 서열을 설계하면,
AlphaFold2도 “이 구조 괜찮다”고 예측함 → 좋은 설계가 됨
4️⃣ 실험에 사용된 20개 서열(기존 4개 + 리모델링한 16개)
UniRef100 데이터베이스 상에서 가장 유사한 단백질과 41~55% 정도의 서열 일치율
이 “가장 유사한 단백질”은 모두 myoglobin
-> 즉, 상당히 새롭지만 여전히 myoglobin답다는 뜻
설계된 단백질은 ProteinMPNN이 만든 완전히 새로운 서열이라서,
원래 myoglobin과 비교하면 절반 가까이 바뀐 서열도 있음
하지만 기능(heme 결합)은 유지되도록 핵심 부위는 고정(fixed)했기 때문에,
“새롭지만 여전히 myoglobin답다”라고 할 수 있음
구조적으로도 Crystal 구조가 설계 모델과 0.66Å RMSD일 정도로 거의 완벽하게 일치
즉, 서열은 많이 바뀌었지만, 구조와 기능은 잘 유지되었기 때문에 성공적인 설계
5️⃣ 또한, 그 외 지표들도 모두 향상됨
| 항목 | 결과 |
|---|---|
| 발현 | 모든 설계 성공적으로 발현, 13개는 native보다 최대 4.1배 높음 |
| 기능 유지 | 모든 설계체에서 heme 결합 기능 유지 |
| 열안정성 | 최대 95°C에서도 구조 및 기능 유지 (native는 80°C에서 변성) |
| 구조 정확도 | Crystal 구조가 설계 모델과 0.66 Å RMSD로 잘 일치 |
| dnMb19 | backbone 리모델링(inpainting)을 가장 과감하게 적용한 설계체가 기능, 구조, 안정성 모두 최고. |
고정된 위치
Catalytic site (기질 인식/반응에 중요한 자리)
진화적으로 보존된 자리 (UniRef30 기반 MSA): 30%, 50%, 70% 상위 보존도 비율
-> 단백질의 기능적 중심인 active site와는 떨어져 있는 자리지만,
이 자리들도 단백질의 접힘(stability), 구조 지지, allosteric 조절 등 간접적인 방식으로 기능에 영향을 줄 수 있음
→ 함부로 바꿨다가 기능을 잃을 수 있으니, 기능에 중요해 보이는 부위는 원래 서열을 유지
1️⃣ UniRef30 기반 서열 정렬
→ 여러 종에서 수집한 TEV protease의 유사 서열들을 정렬(MSA)해서,
어떤 위치가 얼마나 보존되었는지 계산한 뒤, 상위 30~70% 보존도를 기준으로 고정
이렇게 네 가지 방식으로 구분하여 ProteinMPNN에 넣음
-> 각 버전은 고정할 residue 리스트를 다르게 지정한 채로 MPNN 서열 생성 수행
2️⃣ 결과
총 144개의 서열 설계, 모두 AlphaFold2 pLDDT > 87.5로 고신뢰 예측
고정 residue가 적을수록 발현량은 높아짐
하지만 너무 적게 고정하면 기능을 잃음
왜 50%가 최적이었는가?
0% 고정 (no constraints)
→ 너무 많은 변형으로 인해 기능 부위 외의 구조가 망가져서 활성 상실
70% 고정
→ 너무 많은 자리를 고정해서 설계의 자유도가 줄고, ProteinMPNN의 최적화 범위가 제한됨
50% 고정
→ 적절한 수준으로 기능 보존(residue 유지) + 설계 자유도 확보 → 결과적으로 기능성과 안정성의 균형 달성

| 항목 | 최적 조건 |
|---|---|
| 발현량(f) | 30% 고정 디자인이 발현량 가장 높음 |
| 촉매 활성(g) | 50% 고정 디자인이 가장 우수 |
| 0% 고정 (active site only) | 발현량 높지만 기능 없음 |
즉, 기능과 발현 사이에서 최적의 균형을 찾으려면 50% 고정 조건이 가장 이상적
3️⃣ 또한 이 과정에서 효소 활성도 높아짐
활성 부위는 고정되어 있었음에도 불구하고,
멀리 떨어진 부위의 돌연변이들이(활성 부위 외곽) 단백질 전체의 구조를 더 단단하게(rigid) 만들었고,
단백질의 전체적인 안정성을 향상시켜
이로 인해 촉매에 유리한 구조(=기능적 conformation)가 더 자주 형성됨
→ 결과적으로 k_cat(촉매 활성) 이 상승함
| 항목 | 결과 |
|---|---|
| 설계 수 | 144개 (active site + 진화 정보 기반으로 고정 비율 달리함) |
| 발현 성공 | 134개 (93%) |
| 기능성 확인 | 64개 설계체 substrate turnover 확인 (fluorescence) |
| 촉매 효율 | hyperTEV60: kcat/Km 26배 향상 |
| 단백질 substrate 절단 | 4시간 만에 50% 절단 (TEVd는 24시간 필요) |
| 열안정성 | Tm = 84°C (TEVd: 44°C) |
| benchtop 안정성 | 90% vs 15% (4시간 방치 후) |
| 기작 분석 | 루프 rigidification, catalytically competent 상태 증가 |