ProteinMPNN

정우현·2024년 7월 26일

ML 공부

목록 보기
7/16

Protein Engineering Pipeline

  1. RFdiffusion
  • Backbone or general structure
  1. ProteinMPNN -> 단백질 구조를 통해, 시퀀스를 생성(단백질 역접힘 문제 예측)
  • Sequence Generation
  1. AlphaFold 2 -> 서열을 통해, 단백질 구조 예측(단백질 접힘 문제 예측)
  • Filtering
  • Structure prediction problem
  1. Experimental Validation

다중서열정렬(Multiple Sequence Alignment, MSA)

  • Tolerant Position: 서열 중 특정 아미노산이 계속 바뀌어도 영향을 받지 않고, 서열 Position을 계속 유지하는 것
    => 특정 서열이 바뀌어도 전체 구조는 유지되는 특성이 있다(tolerant, 잘 견디는)
  • Co-Evolution: 서열 중 특정 아미노산이 바뀔때, 구조를 안정화 시키기 위해 근처의 자주 상호작용하는 서열도 같이 바뀐다.

AlphaFold 의 아키텍쳐

1. Input 모델

input이 들어오면 2가지로 나뉘어 검색됨
1. 유전자 데이터베이스 검색 -> MSA를 구성하는데 도움
2. 구조 데이터베이스 검색 -> 유사한 구조가 존재하는지 확인

  1. Evoformer(수정된 transformer)
  • self-Attention

-> 각 항목이 다른 항목들과 서로 얼마나 관련되었고, 중요한지 파악
=> 사슬의 반대쪽 끝에서 서로 상호 작용하는 아미노산이 있을 수도 있기 때문에 거리가 아닌 상호연관성이 더욱 중요

  • Evoformer
  1. Structure Module

단백질에서 각 아미노산 분자들이 삼각형 구조를 이루는 것을 backbone frame이라 함

IPA 모듈의 출력은 백본 업데이트 알고리즘으로 전달 -> 백본 프레임의 위치와 구조를 업데이트

ProteinMPNN

  • 단백질 구조 정보를 통해서, 시퀀스를 생성
  • 핵심은 MPNN(Message Passing Neural Network)
    => 정보가 그래프를 따라 전달됨(target 노드와 엣지로 연결된 노드끼리 정보 전달)
profile
Protein Design Lab Researcher, Seoul National University

0개의 댓글