[논문 리뷰] Computational optimization of antibody humanness and stability by systematic energy-based ranking

정우현·2025년 6월 20일

서울대

목록 보기
6/38

💡 요약

✅ CUMAb 핵심 아이디어

1️⃣ 동물 항체의 구조를 기반으로 모든 가능한 인간 V/J 조합의 framework에 CDR을 graft
(하나의 항체당(cdr3 당) 2만여개 정도 테스트)

2️⃣ Rosetta 에너지 함수(ref2015)를 기반으로 에너지 최적화 순위 선정

3️⃣ 높은 homology(유전자 유사성)보다 에너지 안정성 기준으로 선정 → 기존 방식과 다름

다만, 단순히 IMGT 의 human framework 데이터 모든 쌍에 대해 cdr3 영역을 넣어 에너지 순위를 선정하는 것
-> 별다른 mutation은 존재 X

✅ CUMAb 핵심 결과

CUMAb로 설계된 5개의 서로 다른 항체

기존 동물 항체(부모 항체)와 비슷한 항원 결합력(affinity)
그중 일부는 안정성(stability)이 향상

놀랍게도 기존 항체와 가장 유사한 인간 framework보다, 덜 유사한(nonhomologous) 인간 framework가 더 좋은 결과를 주는 경우가 많음
서로 수십 개의 아미노산이 다르더라도, CUMAb로 설계된 여러 항체들이 기능적으로는 거의 동일
->
제일 비슷한 인간 유전자를 쓴 항체보다,
덜 닮은 유전자를 쓴 항체들이 오히려 더 잘 작동했고,
서로 많이 다른 항체들도 성능은 거의 같았음

✅ CUMAb 전체 워크플로우

어떻게 동물 항체를 인간화(humanization)하고, 이를 에너지 기반으로 평가(ranking)하는지

💡 인간 framework 조합

Framework:
항체의 고정된 구조 부분 (CDR은 항원 인식 부위로 그대로 유지)

V & J 유전자 조합:
각 경쇄(light chain)와 중쇄(heavy chain)는 V + J 유전자로 구성

인간 항체 V/J 유전자들을 모두 조합:
κ (kappa): 63,180개
λ (lambda): 48,600개
→ 총 수만 개 framework 생성 가능

💡 워크플로우 요약

1️⃣ CDR 정의
CDR 위치는 구조와 과거 기준에 기반하여 고정적으로 정의

2️⃣ Framework 후보 조합
IMGT DB에서 인간 V, J 유전자 가져옴

제외 조건:

  • Asn-Gly / Asn-X-Ser/Thr 같은 N-결합 당화 부위 제거
  • CDR 밖에 Cys가 2개 초과인 V-gene 제거 (이상적인 구조 방해 가능)

위 조건을 거쳐 항체당 20,000개 이상의 인간 framework 조합 생성

3️⃣ CDR + Framework 조합으로 인간화 서열 생성

4️⃣ 구조 모델링 및 에너지 계산 (Rosetta)

구조 모델링 도구: Rosetta

전체 Fv 구조에 대해 sidechain 최적화 + 최소 에너지화
ref2015 에너지 함수 사용 (원자 간 상호작용, 수소결합, 정전기, 용매 효과 포함)

항원-항체 구조가 있으면:
항원과 맞닿는 항체 부분은 고정(fixed)

5️⃣ 필터링: 구조 왜곡 방지

CDR 백본이 0.5Å 이상 변형되면 해당 모델은 제외
→ CDR 구조는 원래 형태로 유지하도록 강제

6️⃣ Top 디자인 선택: 클러스터링으로 다양성 확보

V-gene 서브그룹 (heavy: 7개, kappa: 6개, lambda: 10개) 기준으로 클러스터링

다양한 구조를 확보하여 5–10개 정도 실험용으로 최종 선별

7️⃣ 기존 방법과의 차이점

기존 방식은 “동물 항체와 비슷한 인간 framework”만 사용

CUMAb는 homology 무시하고 오직 에너지 기준으로 선택
→ 더 넓은 설계 공간 + 예상 못 한 좋은 결과 가능

✅ CUMab 실제 적용 사례

QSOX1 항체 (mAb492.1)를 인간화(humanization)하는 과정

1️⃣ 대상 항체: mAb492.1 (anti-QSOX1)

이 항체는 인간화가 특히 어려움

  • Mouse Fv + Human IgG1 constant 도메인을 결합한 키메라 항체는 발현 실패
  • AbLIFT 기법으로 발현은 복구했지만, 불완전한 인간화 (V-gene identity 57~66%)

🖐 QSOX1 (Quiescin Sulfhydryl Oxidase 1)
암 세포의 세포외 기질 형성을 도와 종양 성장 및 전이에 관여

🖐 mAb492.1 (mouse 항체)
QSOX1 효소를 억제하는 항체 → 암 치료 후보


2️⃣ CUMAb를 적용한 인간화 실험

✅ 실험 구성

CUMAb Top 5 디자인의 Light (5종) × Heavy (3종) 조합으로 15쌍 실험

✅ 결과

  • 12쌍이 AbLIFT18 수준의 발현량 보임 (Dot blot)
  • 7쌍은 정제 후에도 정상적인 구조 유지
  • 4쌍(hαQSOX1.1~4)은 QSOX1 억제능도 부모 항체와 유사

✅ 서열 identity

이 4쌍은 모두 사람 V-gene과의 유사도 >78–86%

  • 기존 mouse 항체/AbLIFT18보다 높은 humanness
  • FDA 승인 항체 평균 수준과 유사 (Light: 84%, Heavy: 81%)
  • HumAb, BioPhi로도 humanized 판정

3️⃣ 안정성과 발현력 평가

✅ Thermostability (nano-DSF)
모두 70°C 이상 melting temperature → 매우 안정함

✅ Human plasma 환경에서 기능 유지
37°C 혈장 조건에서 60시간 이상 QSOX1 억제 유지


4️⃣ 구조 다양성 vs 기능 동일성

✅ 디자인 간의 차이

hɑQSOX1.1 ~ .3는 light or heavy chain이 다름
33–56개의 서열 차이, 전하 분포도 매우 다름

But, 기능(QSOX1 억제능)은 거의 동일
→ 즉, 완전히 다른 서열/전하 패턴을 가진 항체들도 CUMAb 덕분에 동일하게 잘 작동


5️⃣ Developability 평가

✅ 비특이 결합성 (PSP assay)
모든 항체가 비특이 결합이 낮음 → 비정상 약동학, 체내 빠른 제거 가능성 낮음

✅ 자기결합성 (CS-SINS)
모든 CUMAb 디자인이 omalizumab보다 자기결합이 적음

hɑQSOX1.4는 특히 우수 (CS-SINS < 0.35) → 고농도 제형화 적합 (150 mg/mL까지 안정)


6️⃣ 결정 구조 비교 (X-ray)

부모 항체와의 구조 비교

51개 변이가 있음에도 Cα RMSD = 0.7Å
→ 구조적으로 거의 동일
→ CUMAb가 분자 수준에서 정확한 인간화 설계를 해낸 것을 입증


✅ 실험적으로 구조가 알려지지 않은 항체에 대한 CUMAb 사례

실험 구조 없어도 AlphaFold 모델만으로도 CUMAb는 충분히 강력하게 작동

1️⃣ 배경 설명

Fv 구조의 실험적 결정(X-ray 등)은 시간과 자원이 많이 듦

하지만 최근에는 AlphaFold-Multimer 등 구조 예측 기술이 framework 영역은 거의 원자 수준 정확도로 예측할 수 있음

다만 CDR H3는 구조 예측 정확도가 낮지만, 대부분의 경우 framework와 직접 충돌하거나 상호작용하진 않음

따라서, 예측 구조로도 CUMAb가 작동할 수 있다고 가정

🖐 CDR H3 구조 예측 정확도가 낮으면 CUMAb 설계가 무의미하지 않은가?

CUMAb는 기본적으로 CDR을 유지한 채 framework만 humanize하는 방법
대신 framework 서열을 바꾸며, CDR과의 구조적 적합도 (에너지)를 평가함

이 과정에서 문제가 되는 건,
예측된 CDR H3 구조가 실제 구조와 많이 다르면,
framework와의 에너지 계산 자체가 부정확해질 수 있다는 점
→ 즉, 틀린 구조 위에서 Rosetta 에너지 계산
→ 잘못된 판단
→ 잘못된 human framework 선택 가능성 있음

✅ 그런데도 왜 CUMAb는 AlphaFold 구조로 설계를 시도했는가?

  1. 대부분의 경우 H3는 framework와 직접 충돌을 안 한다

ex) H3가 위쪽으로 뻗는 경우가 많고,
framework는 바닥/옆에 있음

따라서 구조 예측이 조금 틀려도 framework 선택에는 크게 영향 안 줌

  1. Rosetta relax 단계에서 local 구조 수정 가능

Threading + relax 단계에서 약간의 구조 조정이 이뤄져서 예측 구조의 일부 오류는 보정 가능함

  1. 실제로 실험으로 검증한 결과도 예측 기반 CUMAb가 꽤 잘 작동했음

CDR H3 구조 오류가 너무 심하면 CUMAb 성능 저하 가능성 있으나,
하지만 대부분은 H3가 framework와 직접적으로 충돌하지 않기 때문에, 예측 구조로도 충분히 작동 가능
또한 Rosetta relax와 다수 샘플링을 통해 어느 정도 보완 가능

2️⃣ 결과

AlphaFold-Multimer 또는 AbPredict 기반 예측 구조를 그대로 넣고 돌려도

  • 발현 잘 되고
  • 결합력 유지되며
  • humanization score 높고
  • 안정성까지 증가된

항체가 실제로 나옴
기존의 conventional 방법 같았으면 선택 못 했을 설계

✅ SDR grafting CUMAb 사례

항목CDR graftingSDR grafting
유지하는 부분전체 CDR항원 접촉 잔기만 (부분적 CDR 포함)
인간화 대상전체 frameworkframework + 비접촉 CDR
humanness 수준보통 80–88%90% 이상도 가능
구조 정확도 요구낮음 (모델도 가능)높음 (항원 결합 구조 필요)
사용 제한거의 없음항원 결합 구조 있어야 함

SDR grafting

  • 발현량 증가
  • 정제 효율 향상
  • 열 안정성 증가

단점

  • 결합력이 약간 떨어짐 (약 7배 낮아짐)
    → 항원과 접촉하는 잔기만 유지하므로, 일부 정밀한 결합력은 손해

하지만 humanness가 90% 이상으로 매우 높아졌고, 개발 가능성 측면에서는 상당히 유리

✅ CUMAb의 한계

💡 한계

1️⃣ CDRH3 길이
본 연구는 7–13 길이의 CDRH3 범위에 집중 (일반적인 mouse 항체)
일부 인간 항체에서는 CDRH3이 20개 이상인 경우도 존재
예측 정확도 감소 가능성 있음 → 추가 연구 필요

2️⃣ 개발성 평가지표

CUMAb는 에너지 기반으로 안정성과 발현성을 확보할 수 있는 설계를 찾지만,
실제 개발 가능한 의약품이 되기 위해서는 다음과 같은 특성도 평가해야 함

  • 비특이적 결합 (nonspecific binding)
  • 용액 안정성 (colloidal stability)
  • 응집성 (aggregation tendency)
  • 면역원성 (immunogenicity)

3️⃣ CDR 설계 호환성

현재는 Framework 중심의 설계만 지원
CUMAb는 CDR은 그대로 두고 framework만 교체함

CDR 자체가 불안정하거나, 최적이 아닌 경우에는 해결 못 함
기존 방식처럼 back-mutation(원래 mouse CDR에 맞게 일부 되돌림)을 고려하지 않음
향후에는 CDR 자체도 재설계하거나, 다른 설계 도구와 통합하여 더욱 완성도 높은 항체를 만들 수 있음

✅ 결론

항체 안정성/활성은 단지 CDR이 아니라 전체 Fv에 의해 결정된다

1️⃣ 기존 인식

"CDR만 잘 옮기면 항체 기능은 유지될 것이다."

2️⃣ 이 논문의 결론:

틀렸다. Framework가 구조적으로 맞지 않으면 아무리 CDR을 잘 옮겨도 안정성/활성 보장 안 됨

3️⃣ 왜 그런가?

  • CDR은 framework 위에 얹혀 있는 구조
    -> framework의 각도, 회전, 지지력에 따라 CDR의 형태도 달라짐
    특히 framework-CDR 사이의 수소결합, 소수성 상호작용 등이 중요

  • Light–Heavy 체인 인터페이스 역시 구조적 핵심
    -> 두 체인의 맞물리는 부위가 어긋나면 전체 항체 구조가 불안정해짐

  • Vernier zone 돌연변이
    -> CDR 근처의 특정 framework 잔기들이 CDR의 형태를 미세하게 조절함
    → 이걸 놓치면 기능 저하

따라서, 구조 기반 설계는 전체 Fv 수준에서 이루어져야 함

✅ 사용 Method

1️⃣ 인간 항체 유전자 데이터베이스 구축(IMGT database)

항체 인간화에 쓸 수 있는 인간 항체 프레임워크 데이터베이스를 만드는 과정

✅ 필터링 조건:

  • 첫 번째 allele만 사용 (annotated as functional)
  • partial / reverse-complementary 유전자 제거
  • 시스테인(Cys) 2개 이상 포함된 경우만 선택

✅ 최종 결과:

  • 54개 heavy V, 6개 heavy J
  • 39개 kappa V, 5개 kappa J
  • 30개 lambda V, 5개 lambda J

이를 모두 조합 ->

  • kappa: 63,180가지
  • lambda: 48,600가지

프레임워크 후보 생성

🖐 항체의 구조

항체의 variable 영역 (Fv)

사슬 종류구성 유전자 세그먼트
HeavyV (Variable), D (Diversity), J (Joining)
LightV, J만 존재 (D는 없음)

V + J는 framework와 일부 CDR을 형성

CDR H3은 D와 J에 의해 만들어지며, 이번 연구에서는 CDR H3는 변형하지 않고 고정

🖐 allele (다형성 버전) 이란?

IMGT 에는 각 항체 유전자의 여러 allele (다형성 버전)이 존재

ex) IGHV3-2301, IGHV3-2302, IGHV3-23*03 등

연구에서는 가장 기본 버전인 1만 사용
(즉, ‘대표 버전’만 사용해서 데이터 중복/노이즈를 줄임)

🖐 partial / reverse-complementary 유전자란?

IMGT에는 완전한 유전자가 아닌 경우도 포함

  • partial: 유전자의 일부만 있는 경우
  • reverse-complementary: 방향이 거꾸로 되어 있어 재구성 불가능한 경우

→ 이런 유전자는 프레임워크를 만드는 데 부적합하므로 제외

🖐 Disulfide bond 란?

항체는 disulfide bond를 형성해 안정적인 구조 형성

이를 위해 framework에 시스테인(C)이 최소 두 개는 있어야 함

→ 어떤 allele이 시스테인 1개만 있을 경우 → 제외
→ 대체 allele 중에 2개 있는 게 있으면 그걸 사용

🖐 유전자 조합 과정?

필터링된 유전자들을 조합

Heavy chain = V × J 조합
→ 54개 V × 6개 J = 324개 조합

Light chain은 2가지 종류
-> Kappa: 39 V × 5 J = 195개
-> Lambda: 30 V × 5 J = 150개

이걸 "조합만" 한 게 아니라,
모든 동물 항체에 대해 각각 V-J 조합을 CDR Grafting 해서 전체 Fv 서열 생성

즉, 하나의 동물 항체에 대해 CDR 교체한 버전으로 각각 생성

이걸 모든 가능한 IMGT 프레임워크로 확장하면

Kappa light chains → 63,180개 (324 X 195)
Lambda light chains → 48,600개 (324 X 150)

→ 하나의 항체(cdr3)에 대해 수만 개의 “후보 인간 항체 프레임워크” 생성


2️⃣ 에너지 기반 랭킹 및 구조 필터링


✅ 실험 구조 있는 경우


1️⃣ Parental 구조 Relax

입력: 동물 항체의 결정구조 (Fv 또는 Fv-antigen 복합체)

작업: Rosetta로 전체 구조를 relax

  • sidechain packing (치환기 배치 최적화)
  • harmonically restrained backbone minimization (백본의 작은 변형만 허용)

이 단계는 모델 품질 향상 및 안정화 목적

2️⃣ Antigen이 함께 있을 경우

항원-항체 복합체이면, 결합 면의 잔기들을 고정한 채로 relax
→ 결합 모양이 틀어지지 않도록 보존

3️⃣ Humanized 프레임워크 적용 (Threading)

수만 개의 humanized 서열을 기존 구조에 맞게 mapping

즉, 프레임워크는 human으로 바꾸고, CDR은 그대로 유지하여 3D 구조 생성

Rosetta의 "threading" 기능 사용

4️⃣ Rosetta ref2015 에너지 함수로 평가

Rosetta의 대표적 에너지 함수 ref2015로 전체 구조를 채점

주요 에너지 항목:

  • an der Waals (원자 간 충돌/간격)
  • 전기적 상호작용 (Electrostatics)
  • 수소결합 (Hydrogen bonding)
  • implicit solvation (물-단백질 상호작용)

→ 값이 낮을수록 안정적인 구조

5️⃣ CDR RMSD 필터링

설계 결과의 CDR 구조가 parental 항체 구조와 너무 다르면 제거
-> 구조가 너무 달라지면 원래 항원 결합능이 사라질 수 있기 때문

CDR의 Cα (알파탄소) - carbonyl oxygen 사이 RMSD ≥ 0.5Å → 제외

6️⃣ V-Gene Subgroup 기반 클러스터링
IMGT V 유전자 서브그룹 기준으로 클러스터링 (같은 그룹끼리 묶음)

각 서브그룹에서 에너지 가장 낮은 후보 1개만 대표로 선택
-> 유사한 서열끼리 중복 실험을 피하고 다양성을 확보하기 위해


✅ 예측 구조 (AlphaFold 등) 사용하는 경우

다른 점

1️⃣ RMSD 필터 제거

AlphaFold 등으로 예측한 경우, 실험 구조가 아니므로 정확성 낮음
→ CDR 구조가 parental과 좀 달라도 제외하지 않음

2️⃣ Backbone 약간 유연하게 움직이도록 설정

약간의 backbone 이동은 허용 (CDR loop modeling 유연성 확보)

AlphaFold가 특히 CDR H3 예측 정확도가 낮기 때문에, 유연성 필요


3️⃣ SDR Grafting 계산

✅1️⃣ 항원 결합 잔기 정의 (Rosetta interface 분석)

항체-항원 복합체의 구조(PDB)를 바탕으로 Rosetta interface analyzer를 사용하여,
항체에서 항원과 직접 상호작용하는 잔기들을 탐지

이 잔기들이 SDRs로 간주됨
→ 이 잔기들만 Mouse 서열 유지

이 때, 주로 CDR 영역 일부 + 일부 프레임워크 잔기 포함될 수 있음

🛑 이 과정은 반드시 결합 복합체의 결정구조가 필요

→ 예측 구조는 불가능 (SDR 위치 정확히 알 수 없기 때문)


✅2️⃣ Human 프레임워크 구성: CDR 길이 조건 필터링

후보로 사용할 human 프레임워크는 다음 조건을 모두 만족해야 함

🔹 조건 1: 모든 CDR의 길이가 parental과 동일 (단, H3 제외)

SDR 위치를 정확히 대응시켜야 하므로
(위치가 달라지면 항원 결합 정보가 손상됨)

🔹 조건 2: H3의 경우

H3는 길이 차이 허용
길이가 더 짧은 human 프레임워크만 허용
부족한 길이는 parental 항체의 서열 일부를 insertion하여 보완

H3는 V와 J 사이의 D gene에서 유래하고 다양성이 크기 때문에 예외 처리

✅3️⃣ 완전한 Human 프레임워크 조립

각각의 프레임워크는 다음과 같이 조립

Heavy chain: V_H(germline) + J_H(germline)
Light chain: V_L(germline) + J_L(germline)
V, J 유전자를 조합해 거의 완전한 human 서열을 만들고,

SDR에 해당하는 잔기만 마우스 서열로 바꿈

✅4️⃣ Threading + Relax + 에너지 평가

앞서 설명한 CDR grafting과 동일한 방식

① Threading
SDR 변형된 서열을 parental 구조에 맵핑

② Relax
Rosetta로 백본 고정하면서 전체 구조 최소화

③ 에너지 평가
ref2015 에너지 함수로 물리적 안정성 평가

RMSD 필터는 SDR grafting에서도 기본적으로 적용됨

✅5️⃣ 클러스터링 기준: V gene + heavy J gene

SDR Grafting에서는 heavy chain의 J gene이 H3에 영향을 주기 때문에,
클러스터링은 다음 두 기준으로 수행

(1) V gene subgroup (IMGT 기준)
(2) heavy-chain J gene subgroup
→ 각 조합마다 가장 낮은 에너지 설계안을 뽑아서 다양성 확보


4️⃣ Humanness 평가 도구

IgBLAST -> “가장 유사한 germline을 기준으로 본 정체성”
Hu-mAb -> “임상적으로 이 서열이 human-like 한가?”
BioPhi -> “실제 인간 면역계에서 흔히 나타나는 서열인가?”

✅1️⃣ IgBLAST

설계된 항체 서열이 어느 human germline V gene과 가장 유사한지 확인

서열을 human V gene database와 비교
가장 상동성이 높은 human V gene을 Top Hit으로 선택
그와의 sequence identity (%)를 계산
보통 80~88% 이상이면 임상적으로도 acceptable 수준

ex) 82.3% identity with IGHV3-23*01

✅2️⃣ Hu-mAb

항체의 서열 기반 humanness 점수를 산출하는 머신러닝 기반 도구
실제 임상 항체 서열을 학습한 모델 기반
FDA 승인 항체의 패턴을 반영 → 실용성 높음

웹서버에서 항체 heavy 또는 light chain 서열을 입력

결과: "Human" vs "Non-Human" 분류 및 점수

✅3️⃣ BioPhi

특정 항체 서열이 인간에게 얼마나 자연스러운지를 점수화하는 "Nativeness" 평가 모델

각 chain에 대해 nativeness score 반환

높은 점수 → 해당 서열이 실제 인간 B세포 repertoire에 자주 등장
CDR, framework 구분 없이 전체 서열 기반 평가

profile
In-silico Antibody Design & Engineering Lab Researcher, Seoul National University

0개의 댓글