[Paper Review] m6Anet;Detection of m6A from direct RNA sequencing using a multiple instance learning framework

장채민·2026년 2월 19일

m6Anet

a neural-network-based MIL model (기존의 MIL 문제를 해결함.)
non-DRACH motifs는 후보군에서 모두 제외함.
two modules
1) read-level encoder
각 read로부터 signal 이랑 sequence의 특징을 입력받아 high-dimensional representation으로 변환한 뒤, 각 read가 m6A로 변형되었을 확률을 예측함. 이 read-level 확률들은 해당 site의 modified 여부를 pooling 을 통해 추정한다.

2) pooling layer
어떤 site에 적어도 하나 이상의 변형된 read가 존재할 확률을 표현.

Modulation of model parameters
training data consisting of labels (modified/unmodified)
direct RNA-Seq reads
(m6ACE-Seq 에서 얻은 lables 이용함.)
(m6A modifications는 unmodified sites보다 드물게 나타나므로, 균형을 맞추기 위해 modified sites를 oversample 함.)
Contribution of signal and sequence features
signal intensity of the center base가 가장 영향력이 큰 특징임.
dwell time은 가장 작은 영향력이 작은 특징임.
전반적으로 모든 features가 modified 와 unmodified sites를 구분하는데 필요했음.
neighboring bases가 nanopore current signal 에 영향을 끼치는 지 알아보기 위해, 좌우 5개의 flanking base pairs로 수행함.(5-fold cross validation)

*pooling

*end-to-end model
- 약한 supervised learning(지도 학습)

중간 처리 단계 없이 입력 데이터에서 출력 데이터로 직접 작업을 수행하는 방법을 학습하는 머신러닝 모델
수작업으로 만든 특징이나 전처리 단계에 의존하지 않고 원시 데이터를 입력으로 받아 원하는 출력을 직접 생성.
원시 입력 데이터와 해당 출력 데이터를 모델에 공급하고 예측 출력과 실측 출력 간의 차이를 측정하는 손실 함수를 최소화하기 위해 모델의 매개변수를 조정하는 과정이 포함됨

*K겹 교차 검증 (K-Fold Cross Validation)

가장 보편적으로 사용되는 교차 검증 기법으로, K개의 데이터 폴드 세트를 만들어서 K번만큼 각 Fold set에 학습과 검증 평가를 반복적으로 수행하는 방법.

*ROC Curve vs PR Curve

*AUC: Area Under the Curve(곡선 아래 면적)