[논문 리뷰] Advancing Protein Design via Multi-Agent Reinforcement Learning with Pareto-Based Collaborative Optimization

정우현·2026년 3월 18일

서울대

목록 보기

37/38

✅ Abstract

기존 방법들은 구조적으로 잘 접히는 단백질과 원하는 기능이 좋은 단백질을 동시에 만족시키는 데 어려움이 있음

① 구조 기반 모델

단백질이 안정적으로 접히는 구조(foldability) 를 잘 맞춤
하지만 기능적 성질은 놓칠 수 있음

② 단백질 언어모델(Protein Language Model, PLM)

진화적 신호나 기능 관련 패턴을 잘 포착함
하지만 구조적으로 불안정한 서열을 예측하는 경우가 많음

즉,
구조 모델은 “잘 접히는지”는 강하지만
언어모델은 “기능적으로 그럴듯한지”는 강함

논문은 MAProt라는 프레임워크를 제안

구조 기반 방법 (예: ProteinMPNN)
→ 목표 backbone에 잘 맞는 서열 생성
단백질 언어모델 기반 방법 (예: ESM, SaProt)
→ 진화적으로 그럴듯하고 기능적으로 유망한 서열을 선호

을 다중 에이전트(multi-agent) 형태로 함께 사용

에이전트들 간 목표 충돌을 해결하기 위해
Pareto 기반 협상 모듈(Pareto-based negotiation module) 을 도입

서로 다른 기준을 내세우는데, 그중 하나만 밀어붙이지 않고
여러 목표를 동시에 최대한 잘 만족하는 균형점을 찾는 방식

✅ Introduction

단백질 설계의 핵심 난제:
구조적 접힘 가능성(foldability) 과 기능적 성능(functional performance) 의 균형

즉,
“기능은 좋아졌는데 구조가 무너짐”
혹은
“구조는 안정적인데 기능이 별로”
같은 상황이 생김.

구조 기반 방법의 장점과 한계

장점:
구조적 무결성(structural integrity)을 잘 보장함
target backbone과 잘 맞는 서열을 찾는 데 강함

한계:
효소 활성
결합 친화도
열안정성(thermostability)
같은 핵심 기능 속성을 충분히 반영하지 못할 수 있음

그래서 구조는 맞는데
원하는 기능이 충분히 나오지 않는 단백질을 만들 수 있음

언어모델의 장점과 한계

대규모 단백질 데이터베이스에서
전역적 서열 패턴(global sequence patterns)
진화적 제약(evolutionary constraints)
을 잘 학습함

그래서 실험 라벨 데이터가 많지 않아도
기능적으로 중요한 신호를 어느 정도 추론할 수 있음

하지만 문제는,
이런 모델들이 생성한 서열은 종종
구조적 안정성
foldability
가 떨어질 수 있다는 점

즉,
언어모델은 “생물학적으로 그럴듯한 말”은 잘하지만,
그게 실제로 안정적으로 접히는 단백질 문장인지는 또 다를 수 있음

서로 다른 모델은

foldability
evolutionary plausibility
functional fitness

같은 서로 다른 목표를 보고 있고,
이 목표들은 종종

서로 양립 불가능하거나
일부 겹치거나
일부 충돌함

즉, 문제는 단순 통합이 아니라
이질적인 모델들의 충돌을 어떻게 조정하고 합의시킬 것인가라는 것임

MAProt라는 multi-agent 기반 프레임워크

구조 기반 에이전트: ProteinMPNN
→ target backbone과의 적합성 보장

서열 기반 에이전트: ESM, SaProt
→ 전역적 서열 특성과 돌연변이 효과를 포착

단백질 설계는 다중 목적 최적화(multi-objective optimization) 문제

즉, 단순히 하나의 점수만 최대화하는 것이 아니라,
여러 목표를 동시에 고려해야 한다는 뜻

✅ Method

Multi-Agent Negotiation and Consensus 단계

agent들의 의견이 어디서 일치하는지 찾고
충돌하는 부분을 해결하
그 결과를 다시 반영해
최종적으로 합의된 설계 방향으로 유도하는 구조

ProteinMPNN: “이 구조에 맞는 서열이 뭐냐?”를 잘 맞힘
ESM: “이 서열이 자연스럽고 기능적으로 그럴듯한가?”를 잘 봄
SaProt은 서열 + 구조를 함께 보는 모델: “이 residue가 무슨 아미노산인지”뿐 아니라, “구조적으로 어떤 상태인지”도 같이 보는 모델

Building Preference Data

실험적으로 측정된 protein fitness에 맞추기 위해, sequence preference pair를 구성