AlphaFold 2(AF2)의 출현은 단백질 구조 예측에서 혁명적인 변화를 이끌었습니다. 이는 단백질 상호작용을 모델링하는 새로운 가능성을 열었으며, 이를 바탕으로 다양한 연구와 응용이 가능해졌습니다. AlphaFold 2는 단백질의 구조뿐 아니라, 단백질-단백질 상호작용도 성공적으로 예측할 수 있다는 점이 곧 밝혀졌습니다. 이는 간단한 입력 수정으로도 단백질 간 상호작용을 정확하게 예측할 수 있다는 것을 보여주었고, 상호작용 예측을 위해 훈련된 AF2는 매우 정확한 시스템을 구축할 수 있음을 증명했습니다.
AF2가 단백질-단백질 상호작용에서 성공을 거두었지만, 리간드, 이온, 핵산, 변형된 잔기 등 더 다양한 생체 분자를 포함한 복합체 구조 예측은 딥러닝으로 해결하기에 여전히 어려운 과제였습니다. 이 문제를 해결하기 위해 특정 상호작용에 특화된 많은 예측 도구들이 개발되었지만, 이들은 주로 제한된 상호작용 유형에만 적용되었습니다. 따라서 이러한 시스템은 일반적인 생체 분자 복합체의 구조를 예측할 수 없었습니다.
AlphaFold 3(AF3)는 이러한 도전 과제에 대응하여 개발되었습니다. AF3의 목표는 생체 분자 복합체에 존재하는 거의 모든 유형의 분자를 다룰 수 있는 모델을 만드는 것이었습니다. 단백질, 핵산, 소분자, 이온 및 변형된 잔기를 포함하는 복합체를 예측하는 데 초점을 맞춘 이 모델은 특정 작업에 특화된 다른 도구들보다 높은 정확도를 보여주었고, 단일 딥러닝 프레임워크 안에서 이 모든 작업을 처리할 수 있는 성과를 달성했습니다.
AlphaFold 3는 여러 성능 개선을 통해 단백질-리간드, 단백질-핵산, 그리고 단백질-단백질 상호작용을 예측하는 능력을 크게 향상시켰습니다. 특히 다음과 같은 점에서 성능 향상을 보여주었습니다:
이러한 성능 개선을 통해 AF3는 단백질 복합체의 예측 정확도를 크게 높였으며, 이는 생물학적 기능에 대한 우리의 이해를 높이고 치료제 설계와 같은 분야에 적용될 수 있습니다.
AlphaFold 3의 핵심 혁신은 AlphaFold 2의 아키텍처를 발전시켜 더 다양한 화학 구조를 처리하고, 딥러닝을 통해 데이터를 더 효율적으로 활용할 수 있게 했다는 점입니다. 여기에는 다음과 같은 주요 변경 사항이 포함됩니다:
AlphaFold 3에서 가장 중요한 혁신 중 하나는 확산 모듈을 통해 원자 좌표를 예측하는 방식입니다. AF3는 확산 모델을 사용해 예측 중인 구조에 노이즈를 추가한 뒤, 네트워크가 그 노이즈를 제거해 실제 좌표를 추정하는 방식으로 훈련됩니다. 이 과정은 구조 예측에서 다중 스케일의 학습을 가능하게 하여, 작은 영역에서는 국소적인 구조의 세밀함을 잡아내고, 더 큰 노이즈에서는 시스템의 대규모 구조를 파악할 수 있게 해줍니다.
이 접근 방식은 스테레오화학 위반 문제를 해결하는 데에도 기여했습니다. AF3는 확산을 통해 잔기의 비틀림 각도나 구조 위반 손실을 피하면서도 화학적 복잡성을 처리할 수 있었습니다.
이렇게 AlphaFold 3는 AlphaFold 2의 성과를 기반으로 한층 더 발전된 기술을 도입하여, 단백질뿐만 아니라 리간드, 이온, 핵산 등 다양한 생체 분자 복합체의 구조를 높은 정확도로 예측할 수 있게 되었습니다.
AlphaFold 3의 아키텍처는 AlphaFold 2(AF2)와 유사한 기본 구조를 따르고 있지만, 생물학적 복합체를 예측하는 데 필요한 다양한 화학적 구조를 수용하기 위해 크게 발전했습니다. AF3는 AF2와 유사하게 쌍별(pairwise) 표현을 기반으로 복합체를 모델링하고, 이 쌍별 표현을 이용해 원자 좌표를 생성하는 구조 모듈을 사용합니다. 하지만 AF3에서는 이러한 주요 구성 요소에 큰 변화가 추가되었습니다.
AlphaFold 3는 다중 서열 정렬(MSA) 처리를 대폭 감소시켜서 시스템의 단순성을 높였습니다. AF2에서는 MSA 처리에 상당한 비중을 두고 이를 통해 상호작용 정보를 추출했지만, AF3에서는 이를 더 간단한 방식으로 처리하며 쌍별 정보(pairwise representation)만을 사용해 복합체 구조 예측을 진행합니다. AF3의 MSA 모듈은 단순화된 블록으로 구성되어 있으며, MSA 정보는 더 이상 네트워크의 나중 단계에서 사용되지 않습니다.
AlphaFold 2에서 사용되던 복잡한 'Evoformer' 모듈은 AF3에서 'Pairformer' 모듈로 대체되었습니다. 이 모듈은 쌍별 표현을 처리하는 데 주력하며, 단일 서열(single representation)과 쌍별(pairwise) 표현만을 사용해 예측을 진행합니다. Evoformer와 달리 MSA 정보를 보존하지 않고, 쌍별 표현이 시스템에서 가장 중요한 정보로 사용됩니다. Pairformer 모듈은 48개의 블록으로 구성되며, 이는 이전의 AF2 아키텍처에서 Evoformer가 수행했던 역할을 더 효율적으로 처리할 수 있습니다.
AlphaFold 3의 핵심 혁신 중 하나는 확산 모듈(diffusion module)의 도입입니다. AF2에서는 구조 모듈이 아미노산 특정 프레임을 기반으로 구조를 예측했으나, AF3는 원자 좌표를 직접적으로 예측하는 방식으로 변경되었습니다. 이를 통해 아미노산 단위의 비틀림 각도(torsion angles)나 스테레오화학적 제약 없이 더 유연하게 구조 예측이 가능해졌습니다.
확산 모듈은 일반적인 확산 모델의 원리를 따릅니다. 훈련 중에는 원자 좌표에 노이즈를 추가한 후, 네트워크가 그 노이즈를 제거하여 진정한 좌표를 예측하도록 학습됩니다. 확산 과정은 여러 단계로 이루어지며, 낮은 노이즈에서는 네트워크가 국소 구조(세부적인 구조)를 이해하는 데 집중하고, 높은 노이즈에서는 더 큰 스케일의 구조(전반적인 구조)를 예측하는 데 집중합니다.
확산 모듈의 도입을 통해 AF3는 기존에 복잡하게 처리되던 스테레오화학 위반 문제를 해결했으며, 다양한 분자 그래프 구조에 유연하게 대처할 수 있게 되었습니다.
확산 모듈은 원자 좌표를 직접 다루는 방식으로 동작하며, 기존의 회전 프레임이나 비틀림 기반의 프레임을 사용하지 않습니다. 이는 AF2에서 기존에 사용되던 복잡한 구조 모듈의 대체물로, 더욱 간단하게 예측할 수 있게 도와줍니다. 예측된 좌표는 확산을 통해 반복적으로 개선되며, 이 과정에서 원자 간의 국소적인 스테레오화학 구조도 보존됩니다.
확산 모듈의 주요 특징은 다음과 같습니다:
AlphaFold 3는 기존 AlphaFold 2에서 사용된 신뢰도 측정 방법을 개선했습니다. AlphaFold 2에서는 구조 모듈에서 예측된 출력의 오류를 회귀 방식으로 훈련하는 방식이 사용되었으나, 확산 훈련에서는 한 번의 확산 단계만 훈련에 사용되므로 기존 방식이 적합하지 않았습니다. 이를 해결하기 위해, AF3는 전체 구조 예측을 진행하는 훈련 절차를 개발했습니다.
이 훈련 절차에서, 네트워크는 여러 단계로 확산을 통해 구조를 예측하며, 그 과정에서 지표(metric)를 통해 신뢰도를 평가합니다. 신뢰도 예측을 위해 각 쌍별 표현을 사용해 국소 거리 차이(pLDDT)와 예측된 정렬 오류(PAE)를 계산합니다.
AlphaFold 3는 훈련 초기에 빠르게 국소 구조에 대한 성능을 개선했으며, 그 후 더 긴 훈련을 통해 전반적인 구조의 예측 성능을 향상시켰습니다. 초기 훈련 단계에서는 2만 번의 학습 단계 안에 국소 구조에 대한 성능이 최대치의 97%에 도달했지만, 전반적인 상호작용(특히 단백질-단백질 인터페이스)에 대한 성능은 더 오래 걸렸습니다.
훈련 중 일부 기능은 조기 과적합(overfitting) 현상을 보였고, 이에 따라 샘플링 확률 조정과 조기 중지 기법을 도입하여 훈련 데이터를 효율적으로 관리했습니다. 또한, 훈련 과정에서 더 큰 크롭 사이즈를 사용하여 단백질-단백질 인터페이스에 대한 성능을 개선할 수 있었습니다.
이 부분에서 AlphaFold 3의 아키텍처와 훈련 과정의 주요 변화를 통해 더 많은 분자 유형을 포함한 생체 복합체의 예측 정확도를 크게 향상시켰다는 것이 강조되었습니다. 확산 모듈과 pairformer는 이러한 개선의 핵심 역할을 했으며, 신뢰도 측정 기법의 개선도 전체 예측의 정확도를 높이는 데 기여했습니다.
AlphaFold 3의 확산 모듈은 원자 좌표를 직접 예측하는 방식으로 작동하며, 이를 통해 더 다양한 분자 구조를 예측할 수 있습니다. 확산 모듈은 기존 AlphaFold 2의 구조 모듈을 대체하여, 아미노산 특정 프레임이나 비틀림 각도를 사용하지 않고, 일반화된 분자 그래프의 복잡한 화학 구조를 처리할 수 있도록 만들어졌습니다.
확산 모듈은 다양한 노이즈 수준에서 단백질 구조를 학습하는데, 낮은 노이즈 수준에서는 국소적인 스테레오화학을 이해하고, 높은 노이즈에서는 대규모 구조를 이해하는 데 초점을 맞춥니다. 이 과정에서 생성된 예측은 다중 샘플링을 통해 최종 구조로 수렴하게 됩니다.
AlphaFold 3는 생성적 훈련 절차를 사용하여 다양한 길이 척도에서 단백질 구조를 학습합니다. 예측된 구조는 불확실한 부분이 있더라도, 그 지역에서는 명확한 결합 기하학(예: 측쇄 결합)을 유지하게 됩니다. 이로 인해 모델은 비틀림 기반 파라미터를 사용하지 않고도, 일반적인 리간드와 단백질 간 상호작용을 처리할 수 있게 되었습니다.
확산 기반 생성 모델의 한 가지 문제는, 모델이 '환각(hallucination)'을 일으킬 수 있다는 것입니다. 이는 모델이 구조화되지 않은 영역에서 그럴듯한 구조를 생성할 수 있다는 것을 의미합니다. AlphaFold 3는 이러한 문제를 해결하기 위해, 기존 AlphaFold-Multimer (v2.3)에서 예측된 구조를 이용해 훈련 데이터를 보강하는 교차 증류(cross-distillation) 방법을 사용했습니다. 이 훈련 방식은 AlphaFold 3가 환각을 줄이고, 불확실한 영역을 명확하게 표시하도록 도왔습니다. Extended Data Fig. 1은 이 과정에서 예측된 무질서 영역을 보여줍니다.
AlphaFold 3는 신뢰도 예측에서도 새로운 방식을 도입했습니다. AlphaFold 2에서는 구조 모듈의 출력에서 직접 오류를 예측했지만, AlphaFold 3의 확산 훈련에서는 이를 전면적으로 다루지 않았습니다. 대신, 확산 롤아웃 절차(diffusion rollout)를 통해 전체 구조 예측을 생성하며, 이 과정에서 예측된 구조의 오류를 평가합니다.
이 롤아웃 절차에서는 모델이 예측한 구조를 이용해 지표를 계산하고, 이를 통해 각 쌍별 예측에 대한 국소 거리 차이(pLDDT)와 예측 정렬 오류(PAE)를 예측합니다. 이 새로운 신뢰도 평가 방식은 확산 훈련의 특성에 맞춰 개발되었으며, AlphaFold 3의 최종 구조에 대한 신뢰도 평가를 더 정확하게 할 수 있게 되었습니다.
Figure 2d는 AlphaFold 3가 훈련 초기에 빠르게 국소 구조를 예측하는 능력을 향상시키는 것을 보여줍니다. 훈련 초반에는 인터페이스 메트릭이 서서히 증가하지만, 단백질-단백질 인터페이스 LDDT(Local Distance Difference Test)는 6만 번째 훈련 스텝에 이르러서야 97% 성능에 도달합니다.
훈련 중, 모델의 일부 능력은 빠르게 최적화되었지만, 특정 기능은 과적합(overfitting)의 징후를 보였으며, 이에 따라 훈련 샘플의 샘플링 확률을 조정하여 문제를 해결했습니다. 또한, 조기 중지 기법을 통해 최적의 모델을 선택했으며, 이러한 최적화 과정은 AlphaFold 3의 성능을 향상시키는 데 중요한 역할을 했습니다.
AlphaFold 3는 입력 폴리머 서열, 변형된 잔기, 리간드 SMILES 등의 입력으로부터 생체 복합체 구조를 예측할 수 있습니다. 이 모델은 단백질과 리간드, 단백질과 핵산, 단백질-단백질 간의 상호작용을 포함한 다양한 생체 복합체를 예측할 수 있습니다.
AlphaFold 3는 단백질-리간드 상호작용에서 뛰어난 성능을 보였으며, 기존 도킹 도구를 크게 능가했습니다. PoseBusters 벤치마크 세트에서, AlphaFold 3는 포켓-정렬 리간드의 루트 평균 제곱 편차(r.m.s.d.)가 2Å 미만인 구조를 예측하는 비율이 매우 높았으며, 기존의 도킹 도구들보다 더 나은 성능을 발휘했습니다. 특히, AlphaFold 3는 Vina와 같은 도킹 도구를 구조적 입력 없이도 크게 능가했으며, 이는 모델이 얼마나 강력한 성능을 갖추고 있는지를 보여줍니다.
AlphaFold 3는 단백질-핵산 상호작용에서도 뛰어난 성과를 거두었으며, RoseTTAFold2NA보다 더 높은 정확도를 기록했습니다. RoseTTAFold2NA는 1,000개 이하의 잔기를 포함하는 구조에만 적용되었기 때문에, 우리는 비교를 위해 1,000개 이하의 잔기를 가진 구조로 평가를 제한했습니다. AF3는 더 많은 잔기를 포함한 단백질-핵산 복합체도 성공적으로 예측할 수 있으며, 이 과정에서 수천 개의 잔기를 포함한 복잡한 구조도 처리할 수 있었습니다.
AlphaFold 3는 다양한 생체 분자 상호작용을 다룰 수 있도록 설계되었으며, 단백질-단백질 상호작용, 단백질-리간드 상호작용, 단백질-핵산 상호작용 등 광범위한 분야에서 높은 성능을 보였습니다. 특히, 모델은 복합체의 상호작용 예측에서 탁월한 정확도를 제공하며, 다양한 생체 분자 복합체의 구조적 특성을 성공적으로 예측할 수 있음을 입증했습니다.
다음은 Figure 3에서 Figure 4 전까지의 중요한 내용을 설명한 내용입니다.
AlphaFold 3는 다양한 생체분자 복합체를 정확하게 예측할 수 있도록 설계되었습니다. 이를 통해 다양한 유형의 단백질-리간드 복합체, 단백질-핵산 복합체, 단백질-단백질 상호작용 등을 다룰 수 있게 되었습니다. Figure 3에서는 AlphaFold 3가 예측한 몇 가지 구조적 예시를 보여주며, 이 모델이 단백질, 핵산, 리간드 및 기타 분자들과의 상호작용을 어떻게 정확하게 모델링하는지를 강조합니다.
Figure 1c는 AlphaFold 3가 다양한 생체분자 복합체에서 어떤 성능을 발휘하는지를 보여줍니다. 다음은 AlphaFold 3가 특히 우수한 성능을 보인 생체분자 유형들입니다:
단백질-리간드 상호작용
AlphaFold 3는 PoseBusters 벤치마크에서 매우 높은 성능을 기록했습니다. 이 벤치마크는 2021년 이후에 공개된 428개의 단백질-리간드 복합체를 기반으로 했으며, AlphaFold 3는 구조적 입력 없이도 매우 높은 정확도로 리간드-단백질 결합을 예측할 수 있었습니다. 리간드의 루트 평균 제곱 편차(r.m.s.d.)가 2Å 미만인 비율에서 AlphaFold 3는 AutoDock Vina와 같은 도구들을 크게 능가했습니다.
단백질-핵산 상호작용
AlphaFold 3는 단백질-핵산 복합체 예측에서도 뛰어난 성능을 발휘했습니다. RoseTTAFold2NA보다 더 높은 정확도를 보였으며, 특히 RNA 구조 예측에서도 좋은 성과를 거두었습니다. 또한, AlphaFold 3는 큰 규모의 단백질-핵산 복합체를 성공적으로 예측할 수 있으며, 이는 수천 개의 잔기를 포함하는 복잡한 복합체에서도 정확한 예측이 가능함을 보여줍니다.
변형된 잔기와 당화 구조
AlphaFold 3는 변형된 단백질 잔기와 당화된 단백질의 구조도 정확하게 예측할 수 있었습니다. 변형된 잔기나 당화된 구조는 생체분자의 기능에 중요한 역할을 하기 때문에, 이를 정확하게 예측하는 능력은 생물학적 연구와 약물 설계에 매우 중요합니다. AlphaFold 3는 이러한 변형된 구조에서도 매우 높은 정확도를 보여줬습니다.
단백질-단백질 상호작용
AlphaFold 3는 단백질 간 상호작용, 특히 항체-항원 상호작용에서 두드러진 성능 향상을 보여줬습니다. AlphaFold-Multimer v2.3에 비해 항체와 항원의 결합을 더 정확하게 예측했으며, 이는 면역학 연구와 항체 설계에 매우 중요한 기여를 할 수 있음을 시사합니다.
AlphaFold 3는 다양한 예측에서 우수한 성능을 보여줍니다. Figure 3에서는 다음과 같은 예시를 제공합니다:
이러한 예시들은 AlphaFold 3의 모델이 단백질, 핵산, 리간드, 변형된 잔기, 당화 등의 복합체에 대해 매우 높은 수준의 구조 예측 성능을 제공할 수 있음을 보여줍니다.
AlphaFold 3의 단백질-리간드 상호작용 예측 성능은 여러 도구들과 비교할 때 뛰어난 결과를 보여줍니다. 특히, Vina와 같은 도킹 도구들에 비해 AlphaFold 3는 훨씬 높은 정확도를 기록했습니다. 이러한 성능은 포켓 정렬 방식을 사용하여 평가되었으며, AlphaFold 3는 리간드-단백질 상호작용의 구조적 예측에서 매우 높은 성공률을 보였습니다.
또한, AlphaFold 3는 리간드에 대한 사전 정보 없이도 예측 성능을 발휘할 수 있습니다. 이는 리간드 결합부위에 대한 정보가 주어지지 않은 상황에서도 AlphaFold 3가 정확한 구조를 예측할 수 있음을 의미하며, 이는 실제 생물학적 응용에서 매우 중요한 장점입니다.
AlphaFold 3의 우수한 성능을 가능하게 하는 주요 기법 중 하나는 다중 샘플링과 모델 시드입니다. AlphaFold 3는 여러 모델 시드를 사용하여 다양한 구조적 가능성을 평가하며, 최종적으로 가장 신뢰할 수 있는 구조를 선택합니다. 이는 특히 항체-항원 상호작용과 같은 복잡한 상호작용에서 중요한 역할을 합니다. AlphaFold 3는 1,000개의 모델 시드까지 사용하여 예측의 질을 향상시킬 수 있으며, 이는 다른 유형의 분자에서는 볼 수 없는 특징입니다.
AlphaFold 3는 예측된 구조의 신뢰도와 실제 정확도가 매우 잘 일치하는 모델입니다. 이는 생물학적 상호작용을 예측할 때 매우 중요한 특징이며, AlphaFold 2에서 사용된 신뢰도 측정 방식을 발전시킨 결과입니다. Figure 4에서는 다양한 상호작용 유형에서 신뢰도가 실제 구조 예측의 정확도를 어떻게 반영하는지를 설명하고 있습니다.
AlphaFold 3는 체인 쌍 인터페이스 예측 TM 점수(ipTM)와 다양한 상호작용 정확도 간의 관계를 평가합니다. 구체적으로, 다음과 같은 상호작용 정확도를 평가합니다:
AlphaFold 3는 pLDDT(Local Distance Difference Test) 점수와 PAE(Predicted Aligned Error) 행렬을 사용하여 각 구조의 신뢰도를 평가합니다. pLDDT는 단백질, 핵산, 리간드와 같은 각각의 개체에서 구조의 로컬 정확도를 측정하는 지표로, 더 높은 값일수록 더 정확한 예측을 의미합니다. PAE 행렬은 각 구조의 서로 다른 부분 간의 예측 오류를 시각적으로 보여주며, 신뢰도가 낮은 영역을 쉽게 식별할 수 있게 해줍니다.
Figure 4b–e에서는 PDB 7T82 예측 예시를 보여주며, AlphaFold 3가 어떻게 신뢰도 점수에 따라 구조를 색상으로 구분하는지를 설명하고 있습니다. 신뢰도가 낮은 부분(주로 체인 끝부분)에서는 자신감이 낮은 색상(주황색 또는 노란색)으로 표시되며, 자신감이 높은 부분은 파란색으로 나타납니다.
Figure 4e에서는 PAE(예측 정렬 오류) 행렬을 통해, 단백질 상호작용의 신뢰도를 시각적으로 표현합니다. 이 행렬은 잔기 쌍 간의 예측 오류를 보여주며, 각 체인의 상호작용에 대한 자신감을 분석할 수 있게 해줍니다. AlphaFold 3는 PAE 행렬을 통해 단백질-단백질 인터페이스의 신뢰도를 분석하며, 상호작용의 정확도를 높이는 데 중요한 역할을 합니다.
AlphaFold 3에서 신뢰도 측정값(pLDDT, PAE)은 실제 예측 정확도와 높은 상관관계를 보입니다. 이는 AlphaFold 2에서도 증명된 바 있지만, AlphaFold 3에서는 더 다양한 복합체 유형을 포함해 신뢰도와 정확도 간의 관계를 확인했습니다. 특히, 단백질-단백질, 단백질-리간드, 단백질-핵산 상호작용에서 신뢰도가 정확도의 좋은 지표가 됨을 확인할 수 있습니다. 이는 생체 분자 상호작용을 예측할 때, 모델이 예측에 대한 자신감을 명확하게 나타낼 수 있음을 의미합니다.
AlphaFold 3는 매우 높은 성능을 보이지만, 몇 가지 모델 한계도 존재합니다. 특히, 다음과 같은 문제들이 모델에서 관찰되었습니다:
AlphaFold 3는 정적 구조를 예측하는 데 매우 뛰어난 성능을 발휘하지만, 동적 분자 시스템을 예측하는 데는 한계가 있습니다. 대부분의 단백질 구조는 정적 상태에서만 관찰되지만, 생체 내에서는 동적으로 변화하는 분자 상호작용이 많습니다. AlphaFold 3는 이러한 동적 변화나 상태 변화를 처리하지 못하며, 용액 내에서 분자가 어떻게 움직이는지에 대한 정보를 제공하지 않습니다. 이는 일부 리간드 결합이나 상호작용에서 중요한 한계로 작용할 수 있습니다.
예를 들어, E3 유비퀴틴 리가제는 비리간드 상태에서 열린 구조를 취하지만, AlphaFold 3는 이 리가제를 항상 닫힌 상태로 예측합니다. 이는 AlphaFold 3가 다양한 구조적 상태를 처리하는 데 어려움을 겪고 있음을 시사합니다.
AlphaFold 3는 생체 분자 상호작용 예측에서 중요한 진전을 이루었지만, 몇 가지 구조적 한계를 가지고 있습니다. Figure 5는 AlphaFold 3가 여러 한계를 가지고 있다는 것을 시각적으로 보여줍니다.
AlphaFold 3는 가끔 거울상 이성질체(분자의 특정 형태)의 스테레오화학적 위반을 일으킬 수 있습니다. 이는 AlphaFold 3가 단백질-리간드 상호작용을 예측할 때 특정 원자의 손 모양(chirality)을 잘못 처리하는 경우를 의미합니다. Figure 5b에서는 Thermotoga maritima α-glucuronidase의 예측과 실제 구조의 차이를 보여주며, AlphaFold 3는 리간드의 거울상 이성질체를 정확하게 예측하지 못한 사례를 보여줍니다.
AlphaFold 3는 종종 단백질 사슬 간의 중복 또는 충돌을 예측하는 경향이 있습니다. 이는 특히 단백질-핵산 복합체에서 두드러지게 나타나며, 여러 체인이 겹쳐지는 형태로 잘못 예측될 수 있습니다. Figure 5e는 단백질과 DNA가 겹쳐진 상태로 잘못 예측된 구조를 보여주며, 이는 AlphaFold 3가 복잡한 생체 분자 복합체를 처리하는 데 있어서 한계를 가지고 있음을 시사합니다.
AlphaFold 3는 환각 현상을 일으킬 수 있으며, 이는 비구조화된 영역에서 실제로는 존재하지 않는 그럴듯한 구조를 생성하는 경우를 의미합니다. Figure 5d는 AlphaFold 3가 핵공 복합체를 예측할 때 1,854개의 잔기를 잘못된 비구조적 영역으로 예측한 사례를 보여줍니다. 이와 같은 환각은 확산 기반 모델이 불확실한 영역을 처리할 때 발생할 수 있으며, 예측 결과에서 신뢰도가 낮은 부분으로 표시됩니다.
AlphaFold 3는 단백질의 정적 구조만을 예측하며, 동적 상태에 대한 정보를 제공하지 못합니다. 예를 들어, E3 유비퀴틴 리가제는 비리간드 상태에서는 열린 상태를 유지하지만, AlphaFold 3는 리간드가 없더라도 항상 닫힌 상태로 예측합니다. Figure 5c는 열린 상태의 cereblon과 닫힌 상태의 cereblon을 모두 닫힌 상태로 예측한 사례를 보여줍니다. 이는 AlphaFold 3가 구조적 다양성을 다루는 데 한계가 있음을 나타냅니다.
AlphaFold 3는 항체-항원 상호작용 예측에서 특히 많은 모델 시드를 사용해야 높은 정확도를 달성할 수 있습니다. AlphaFold 3는 일반적으로 5개의 모델 시드를 사용해 예측을 수행하지만, 항체-항원 상호작용에서는 1,000개 이상의 모델 시드를 사용해야 더 높은 정확도를 달성할 수 있습니다. Figure 5a는 더 많은 모델 시드를 사용할 때 예측 정확도가 크게 향상되는 것을 보여줍니다. 이는 다른 분자 상호작용 예측에서는 보이지 않는 특징입니다.
AlphaFold 3는 단백질 구조 예측과 복합체 상호작용 예측에서 중요한 진전을 이뤘으며, 이는 분자 생물학 및 약물 개발에서 매우 중요한 역할을 합니다. 하지만 여전히 일부 영역에서는 해결해야 할 도전 과제가 남아 있습니다. 다음은 AlphaFold 3의 성과와 발전 가능성을 요약한 내용입니다.
AlphaFold 3는 다양한 유형의 생체 분자 복합체를 단일 모델로 다룰 수 있으며, 그 성능은 기존 도구들을 크게 능가합니다. 특히 단백질-리간드 상호작용, 단백질-핵산 상호작용, 항체-항원 상호작용에서 AlphaFold 3는 매우 높은 예측 정확도를 보였습니다. 이러한 성과는 AlphaFold 3가 생명과학 연구와 신약 개발에서 중요한 역할을 할 수 있음을 시사합니다.
AlphaFold 3는 신뢰도 측정과 예측 정확도가 매우 잘 일치합니다. 신뢰도 지표(pLDDT, PAE)는 예측의 정확도를 매우 잘 반영하며, 이는 연구자가 예측된 구조에서 불확실한 부분을 명확하게 식별할 수 있게 도와줍니다. 특히 단백질-단백질 상호작용, 단백질-리간드 상호작용, 단백질-핵산 상호작용에서 신뢰도가 예측의 정확도를 매우 잘 반영하고 있습니다.
AlphaFold 3는 여전히 몇 가지 해결해야 할 한계를 가지고 있습니다. 특히, 스테레오화학적 위반, 구조 중복 및 충돌, 동적 상태 예측의 부족은 모델 성능을 제한하는 요소입니다. 이러한 문제는 향후 모델을 개선하는 데 중요한 도전 과제가 될 것입니다.
AlphaFold 3는 다양한 분야에서 응용 가능성이 큽니다. 특히 구조 생물학, 약물 개발, 생명과학 연구에서 AlphaFold 3는 중요한 도구로 자리 잡을 수 있습니다.