DTI 관련 논문에서 Datasets 부분을 보면
"The benchmark datasets used in this study are the Metz, KIBA, and Davis datasets."
이 항상 등장하는 것을 볼 수 있다. 이게 과연 무엇일까?
pip install PyTDC
from tdc.multi_pred import DTI
data = DTI(name = 'DAVIS')
data.convert_to_log(form = 'binding')
split = data.get_split()
split['train']
pip install PyTDC
from tdc.multi_pred import DTI
data = DTI(name = 'KIBA')
split = data.get_split()
split['train']
같은 Kinase inhibitor dataset 인데 혹시 중복되는 value 가 있지 않을까??
간단한 코드로 중복되는 Drug 와 Target을 찾아보았다.
각각의 Dataset의 train / valid / test 를 하나로 합친 list를 만들고
중복값을 제거해주는 set로 바꾼 뒤 교집합 결과를 확인해보았다.
코드 : https://github.com/bioai96/DTI/blob/main/Davis_%26_KIBA.ipynb
len(common_Target) : 179
Table S1 Supplementary Excel file containing pKI [-log10(KI)] values for 3858 compounds against 172 protein kinases.
Containing ∼20 000 experimentally determined binding affinities of protein–ligand complexes
110 Target Protein <-> ~11,000 Small Molecule Ligand
Data extracted from scientific literature, data collection in Protein Data Bank
Database of Useful Decoys