QSAR 개발 과정

수현·2024년 6월 7일

신약개발 AI

목록 보기

1/1

Quantitative Structure-Activity Relationships (QSAR)
- 정의: 분자의 구조를 화학적 성질이나 생물학적 효과와 수학적으로 연결시키는 방법
- 목적: 통계적 기법을 사용해 모델을 구축하고, 이를 통해 화합물의 특성을 예측

QSAR-guided Drug Discovery(QSAR 기반 신약 개발)
- 목표: 다양한 방법으로 신약 개발을 가능하게 함
- 과정: 데이터 수집 -> 데이터 정리 및 통합 -> 데이터 저장소 구축 -> 예측 가능한 QSAR 워크플로우 -> QSAR 모델 구축 -> 가상 스크리닝 및 분자 설계 -> 실험적 검증 -> 반복

데이터셋 종류
- Molecular Structure: 분자 구조에 대한 정보
- Activity: 화합물의 활동 데이터 (예: ER 결합 친화도)
Molecular Structure의 숫자화
- X: Molecular Descriptors (예: 0,1,0,0,...)
- Y: Response Variable (예: 0.1, 0.2... 또는 yes/no)
과정
- 단계: 분자 구조 -> 통계적 분석 -> QSAR 모델 검증 -> 활동 예측

QSAR-based Virtual Screening
- 목적: 거대한 화합물 라이브러리에서 잠재적인 약물 후보를 찾는 것
- 과정:
  1. Chemical Library: 1백만에서 10억 개의 분자로 구성된 라이브러리
  2. Virtual Screening: 다양한 필터를 통해 후보 화합물을 선정
  - 경험적 규칙
  - 화학적 유사성 필터
  - QSAR 기반 필터
  - 실현 가능성 및 가용성 필터
  3. 결과: 잠재적 히트 분자 100~1000개 도출
  
  신약 후보 물질을 찾기 위해 수많은 화합물을 빠르게 스크리닝 하여 비용과 시간을 절약할 수 있음
Target Prediction및 Optimization
- 목적: 약물의 타겟을 예측하고, 약물의 효과를 최적화 하는것
- 예시: 이미 알려진 약물인 Donepezil의 QSAR 모델 테스트를 통해 약물의 타겟을 예측
- 과정:
  - Binding Target 최적화: 약물이 더 잘 겹할할 수 있도록 타겟 최적화
  - Ligand Optimization: 약물의 구조를 수정하여 더 강력한 결합을 유도함
  - Bioactivity 향상: 약물의 생물학적 활성을 향상
- 결과: 더 효과적인 약물을 설계하고, 기존 약물의 성능을 향상시킬 수 있음

화합물 데이터
- 정의: 분자의 구조를 표현한 화학 구조 세트. 이 데이터는 분자의 특성을 나타내는 다양한 분자 서술자(molecular descriptors)로 변환됨
- 예시: 분자 무게, 결합 길이, 전자 밀도 등
Activity 데이터
- 정의: 분자의 구조와 연관있는 관찰된 '활동' 데이터. 이는 화합물의 생물학적 효과를 나타내며, 실험적 또는 임상적 데이터를 포함
- 형태:
  - 숫자형: IC50, Ki, Kd 등, 이는 화합물의 효능을 측정하는 데 사용됨
  - 범주형: 활성/비활성, 가용성/불가용성 등, 이는 화합물의 특정 특성에 따라 분류됨
통계적 모델링 방법
- 목적: 분자 서술자와 활동 데이터 간의 주요 관계를 식별하고 예측 모델을 구축하는 것
- 예시: 선형 회귀, 서포트 벡터 머신(SVM), 랜덤 포레스트, 딥러닝

중요성: 모델이 학습 데이터에 잘 맞는다고 해서 새로운 화합물에 대한 예측 성능이 보장되는 것은 아님. 따라서 모델의 일반화 능력을 평가하는 것이 매우 중요함
적절한 모델 복잡성 결정:
- 과소적합: 모델이 너무 단순하여 데이터의 중요한 패턴을 잡아내지 못하는 경우
- 과적합: 모델이 너무 복잡하여 학습 데이터의 노이즈까지 과하게 학습하는 경우
- 선형, 2차, 4차, 6차 모델 등 다양한 복잡성의 모델을 시도해보고 최적의 복잡성 선택해야 함
External Test Sets and Cross Validation:
- 데이터셋을 학습 데이터셋과 테스트 데이터셋으로 분할
- 최종적으로 독립적인 테스트 셋에서 모델의 정확도를 테스트

회귀 문제 (Regression Problems):
- MAE (Mean Absolute Error): 예측 값과 실제 값 간의 절대 오차의 평균
- MSE (Mean Squared Error): 예측 값과 실제 값 간의 오차 제곱 평균
- RMSE (Root Mean Squared Error): MSE의 제곱근, 예측 값과 실제 값 간의 오차의 크기를 직관적으로 표현
- Pearson Correlation Coefficient: 예측 값과 실제 값 간의 선형 상관 관계를 측정
- Spearman Rank Correlation: 예측 값과 실제 값 간의 순위 상관 관계를 측정
분류 문제 (Classification Problems):
- Classification Accuracy: 전체 예측 중 정확하게 예측된 비율
- Precision: 양성 예측 중 실제 양성의 비율
- Recall: 실제 양성 중 정확하게 예측된 비율
- F1 Score: Precision과 Recall의 조화 평균
- AUC (Area Under the Curve): ROC 곡선 아래의 면적, 분류 모델의 성능을 종합적으로 평가
- PRC (Precision-Recall Curve): Precision과 Recall의 관계를 시각화

적절한 데이터 크기:
- 데이터가 너무 적거나 너무 많으면 모델의 성능에 부정적 영향을 미칠 수 있음
- 데이터셋이 클 경우, 서브셋을 선택하거나 클러스터링하여 모델을 구축
하한선:
- 훈련 세트가 너무 작으면 상관관계 및 과적합 문제 발생
- 연속 반응 변수: 훈련 세트에 최소 20개의 화합물 필요, 테스트 및 외부 평가 세트에 각각 약 10개의 화합물 필요
- 분류 또는 카테고리 반응 변수: 각 클래스에 최소 10개의 화합물 필요, 테스트 및 외부 평가 세트에 각 클래스 당 최소 5개의 화합물 필요

연속 반응 변수:
- 전체 활동 값 범위는 실험 오류의 최소 5배 이상이어야 함
- 두 연속 값 사이에 10-15% 이상의 큰 간격이 없어야 함
분류 또는 카테고리 QSAR:
- 각 클래스 또는 카테고리에 최소한의 화합물이 있어야 함
- 모든 클래스 또는 카테고리의 화합물 수는 대략 동일해야 함