Med-BERT : pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction

Daeseong Kim·2022년 3월 11일

medical NLP paper review

목록 보기

2/8

전자 의료 기록은 text와 유사하기에, transformer의 bidirectional encoder 구조로 nlp분야의 많은 발전을 가져온 pre-training BERT에서 EHR을 가지고 fine tuning 시키면 EHR기반 predictive modeling의 성능을 향상시킬 수 있음.
MedBert는 기존의 BEHRT, G-BERT에 비하여 훨씬 큰 vocabulary size와 pre training cohort size를 가짐. 이 두 구조와 다르게 한번의 visit 내의 여러 질병을 ordering하였음.

Bert 구조에서 EHRs의 데이터 구조에 적합하게 레이어를 개선.
fine-tuning은 당뇨병 환자의 심부전 그리고 췌장암 예측이라는 질병 예측 tasks에 대해 수행되었고, 두개의 데이터베이스로부터 세개의 cohorts로 진행.
Med-Bert Embedding
a. sum of (code,serialized,visit) embedding
b. code embedding : diagnosis codes
c. serialization embedding : the order of codes within each visit
d. visit embeddingg : the position of each visit and named
FFL(feed-forward layer)
a. BERT에서는 CLS토큰으로 두가지 문장으로부터 정보를 요약하는데 주로 쓰임. 즉 classification token으로 sequence를 의미한다고 볼 수 있음.
b. 그런데, EHR시퀀스는 더 길어야 하므로 이를 그대로 사용하면 정보 손실이 크기에 feed-foward layer(FFL)이라는 것을 추가하여 사용.
code와 visit을 encode하는데 있어 트랜스포머의 멀티헤드어텐션의 장점을 이용하기 위하여 bidirectional transformer blocks을 추가.
Two tasks in Pre-training step
a. Masked Language Model (masked LM, code level) : 기존 BERT로부터 직접 상속. (이 테스크는 contextualized embedding model의 핵심이다.)
b. Prediction of prolonged length of stay in hospital(patient level) : pre-training complexity를 낮추려고 visit level이 아닌 patient level에 targeting.

세 개의 우수한 모델에 MED-BERT를 추가해 얻어지는 성능으로 테스트.
MED-BERT vs Pre-trained clinical word2vec-style embedding 비교
다른 training size를 가지고 disease prediction에 MED-BERT가 얼마나 유용한지 테스트.
EHRs 을 위한 BERT스타일 모델이 real-world-facing predictive modeling task의 성능을 향상시킨다는 것을 보여줌.
EHR데이터사이 널리 퍼져있고, 이들을 문맥적의미로 포착하는데 효과적인 pre-training task(domain-specific)한 고안함.
트레이닝 데이터셋과 다른 데이터셋에 대하여 성능을 높임으로써 generalizability함을 보여줌.
Retain모델과 같이 쓰니 성능 개선이 있었고, 이보다도 간단한 구조를 가진 GRU, BI-GRU와 함께쓰니 그 개선은 더욱 커졌다. med-bert 자체적으로 좋은 성능을 달성.

타인에게 영감을 주는 것을 애정합니다. 그래서 책을 내고 싶습니다. 이 꿈을 위한 조각들을 아카이빙합니다.