과정: 데이터 수집 -> 데이터 정리 및 통합 -> 데이터 저장소 구축 -> 예측 가능한 QSAR 워크플로우 -> QSAR 모델 구축 -> 가상 스크리닝 및 분자 설계 -> 실험적 검증 -> 반복
QSAR 모델링 과정
데이터셋 종류
Molecular Structure: 분자 구조에 대한 정보
Activity: 화합물의 활동 데이터 (예: ER 결합 친화도)
Molecular Structure의 숫자화
X: Molecular Descriptors (예: 0,1,0,0,...)
Y: Response Variable (예: 0.1, 0.2... 또는 yes/no)
과정
단계: 분자 구조 -> 통계적 분석 -> QSAR 모델 검증 -> 활동 예측
QSAR 모델의 활용
QSAR-based Virtual Screening
목적: 거대한 화합물 라이브러리에서 잠재적인 약물 후보를 찾는 것
과정:
1. Chemical Library: 1백만에서 10억 개의 분자로 구성된 라이브러리
2. Virtual Screening: 다양한 필터를 통해 후보 화합물을 선정
- 경험적 규칙
- 화학적 유사성 필터
- QSAR 기반 필터
- 실현 가능성 및 가용성 필터
3. 결과: 잠재적 히트 분자 100~1000개 도출
신약 후보 물질을 찾기 위해 수많은 화합물을 빠르게 스크리닝 하여 비용과 시간을 절약할 수 있음
Target Prediction및 Optimization
목적: 약물의 타겟을 예측하고, 약물의 효과를 최적화 하는것
예시: 이미 알려진 약물인 Donepezil의 QSAR 모델 테스트를 통해 약물의 타겟을 예측
과정:
Binding Target 최적화: 약물이 더 잘 겹할할 수 있도록 타겟 최적화
Ligand Optimization: 약물의 구조를 수정하여 더 강력한 결합을 유도함
Bioactivity 향상: 약물의 생물학적 활성을 향상
결과: 더 효과적인 약물을 설계하고, 기존 약물의 성능을 향상시킬 수 있음
QSAR 모델의 구성요소
화합물 데이터
정의: 분자의 구조를 표현한 화학 구조 세트. 이 데이터는 분자의 특성을 나타내는 다양한 분자 서술자(molecular descriptors)로 변환됨
예시: 분자 무게, 결합 길이, 전자 밀도 등
Activity 데이터
정의: 분자의 구조와 연관있는 관찰된 '활동' 데이터. 이는 화합물의 생물학적 효과를 나타내며, 실험적 또는 임상적 데이터를 포함
형태:
숫자형: IC50, Ki, Kd 등, 이는 화합물의 효능을 측정하는 데 사용됨
범주형: 활성/비활성, 가용성/불가용성 등, 이는 화합물의 특정 특성에 따라 분류됨
통계적 모델링 방법
목적: 분자 서술자와 활동 데이터 간의 주요 관계를 식별하고 예측 모델을 구축하는 것
예시: 선형 회귀, 서포트 벡터 머신(SVM), 랜덤 포레스트, 딥러닝
모델 검증 및 적용 범위
모델 검증 (Model Validation)
중요성: 모델이 학습 데이터에 잘 맞는다고 해서 새로운 화합물에 대한 예측 성능이 보장되는 것은 아님. 따라서 모델의 일반화 능력을 평가하는 것이 매우 중요함
적절한 모델 복잡성 결정:
과소적합: 모델이 너무 단순하여 데이터의 중요한 패턴을 잡아내지 못하는 경우
과적합: 모델이 너무 복잡하여 학습 데이터의 노이즈까지 과하게 학습하는 경우
선형, 2차, 4차, 6차 모델 등 다양한 복잡성의 모델을 시도해보고 최적의 복잡성 선택해야 함
External Test Sets and Cross Validation:
데이터셋을 학습 데이터셋과 테스트 데이터셋으로 분할
최종적으로 독립적인 테스트 셋에서 모델의 정확도를 테스트
데이터 분할 방법
Random Split: 데이터를 무작위로 나누어 학습 및 테스트 셋을 구성
Stratified Split: 데이터의 클래스 비율을 유지하며 계층적으로 나눔
Cluster-based Split (Scaffold Split): 분자 구조의 유사성을 기반으로 클러스터를 형성하여 데이터를 나눔
Temporal Split: 시간 순서에 따라 데이터셋을 나눔 (예: ChEMBL 20(학습), ChEMBL 21(테스트))
교차 검증 (Cross Validation)
Leave-One-Out: 한 번에 하나의 데이터를 제외하고 모델을 학습하여 제외된 데이터를 평가
Leave-Cluster-Out: 클러스터 단위로 데이터를 제외하고 모델을 학습하여 평가
N-Fold Cross Validation: 데이터를 N개의 폴드로 나누어 교차 검증 수행. 각 폴드가 데이터 셋이 되어 모델을 평가
Additional Validation Set: 추가적인 검증 셋을 사용하여 모델을 추가로 평가
모델 성능 평가 (Assessing Model Performance)
회귀 문제 (Regression Problems):
MAE (Mean Absolute Error): 예측 값과 실제 값 간의 절대 오차의 평균
MSE (Mean Squared Error): 예측 값과 실제 값 간의 오차 제곱 평균
RMSE (Root Mean Squared Error): MSE의 제곱근, 예측 값과 실제 값 간의 오차의 크기를 직관적으로 표현
Pearson Correlation Coefficient: 예측 값과 실제 값 간의 선형 상관 관계를 측정
Spearman Rank Correlation: 예측 값과 실제 값 간의 순위 상관 관계를 측정
분류 문제 (Classification Problems):
Classification Accuracy: 전체 예측 중 정확하게 예측된 비율
Precision: 양성 예측 중 실제 양성의 비율
Recall: 실제 양성 중 정확하게 예측된 비율
F1 Score: Precision과 Recall의 조화 평균
AUC (Area Under the Curve): ROC 곡선 아래의 면적, 분류 모델의 성능을 종합적으로 평가
PRC (Precision-Recall Curve): Precision과 Recall의 관계를 시각화
데이터 크기와 활동 값
데이터 크기 (Data Size)
적절한 데이터 크기:
데이터가 너무 적거나 너무 많으면 모델의 성능에 부정적 영향을 미칠 수 있음
데이터셋이 클 경우, 서브셋을 선택하거나 클러스터링하여 모델을 구축
하한선:
훈련 세트가 너무 작으면 상관관계 및 과적합 문제 발생
연속 반응 변수: 훈련 세트에 최소 20개의 화합물 필요, 테스트 및 외부 평가 세트에 각각 약 10개의 화합물 필요
분류 또는 카테고리 반응 변수: 각 클래스에 최소 10개의 화합물 필요, 테스트 및 외부 평가 세트에 각 클래스 당 최소 5개의 화합물 필요
다시 설명 부탁드려도 될까요?