의학 분야에 쓰이는 NLP에 대해 다룬 서베이 페이퍼들을 서베이해봅시다.
Paper: https://arxiv.org/abs/2010.12309
Deep neural network, 그리고 huge language model은 점점 NLP 분야를 지배하고 있습니다.
하지만, 대부분의 모델이 많은 양의 데이터를 필요로 하고, 이에 따라 필연적으로 low-resource 상황에서도 잘 작동할 수 있는 모델에 대한 연구가 많아졌습니다.
대표적으로 NLP 분야에서 쓰이는 방법은 large-scale에 pre-train시킨 다음 downstream-task에 fine-tune하는 방법들이 있는데, 본 서베이 논문도 마찬가지로 low-resource NLP 분야에서 쓸만한 좋은 접근법들을 다룹니다.
사용 가능한 데이터의 규모에 따라 여러 관점을 제시하고, 학습 데이터가 적을 때 사용할 수 있는 학습 방법들에 대한 구조적인 틀을 제공합니다.
여기에는 다들 아는 transfer learning, data augmentation 뿐만 아니라 distant supervision도 포함됩니다.
결론적으로, resource가 적은 상황에 알맞은 테크닉을 고르는 것은 너무나도 중요하기 때문에, 다양한 방법들이 어떻게 다르고, 어떤 특징을 지니는 지는 알 필요가 있다는 것입니다.
미래 방향들도 다루겠지요.
Paper: https://ieeexplore.ieee.org/document/7406286
임상 환경에서, free-form text를 기반으로 환자에 대한 임상 의사결정 보조(Clinical Decision Support)를 내리는 시스템이 점차 수행되고 있습니다.
다만, 자연 언어의 복잡성으로 인해 계산적으로 쉽지는 않습니다.
최근 몇년 간, clincal decision support를 고려한 여러 NLP-based 방법론들이 제안되고 있는데요, 해당 서베이 페이퍼의 저자들 또한 이런 Clincal-NLP 방법론들에 대한 리뷰를 제공합니다.
해당 방법론들은 주로 input으로 free text**를 받는 task에 집중을 합니다.
가령, Summarization이나 Classification 등이 되겠죠. Q&A 보다는요.
이로 인해 조기진단, 특정 질병에 대한 판단 보조, 위험 식별, 증거 기반 결정, 약 처방에 대한 안전성 도출 등 의학적 성과도 거둘 수 있다고 합니다.
Paper: https://medinform.jmir.org/2021/10/e23898/
정보 관련 기술이 너무나 빠르게 발달하고 있기 때문에, 역시 상당히 많은 양의 health data도 처리할 필요가 있습니다.
특히, 진단 텍스트(diagnosis text), 퇴원 요약서(discharge summaries), 온라인 의학 토론, 임상 시험의 자격 기준 등 많은 양의 가치 있는 natrual text가 존재합니다.
현재는 NLP분야와 Health Care 분야 간 교집합에 해당하는 Health natural language processing이 방법론 개발 / 산업 응용 등에 중요한 역할을 하고 있습니다.
해당 서베이 페이퍼는 health-NLP와 의학 분야에서의 응용에 대해 최신 방법론들을 다룹니다.
Paper: https://www.sciencedirect.com/science/article/pii/S0360301621001188
NLP 알고리즘들은 주로 unstructured free text를 structured data로 바꿔 여러 인사이트를 도출하곤 합니다.
의학 분야에서도, 만약 풍부하고 표현력 있는 수 많은 데이터들을 사용할 수 있다면, 임상 목적에 맞게 빅데이터 연구의 잠재력을 터뜨릴 수 있을 것이다.
아직은..
아무튼 최근에는 NLP 분야가 발전하면서 다양한 학계/산업계에서 정보 추출 혹은 임상 기록으로부터의 피노타이핑등 여러가지 툴들이 개발되어 왔습니다.
피노타이핑 : DNA, 유전체, RNA, 단백질, 면역체, 미생물체, 후성유전체, 바이오센서, 소셜그래프, ... 즉, 개인을 심층적으로 정의하는 디지털 체계를 갖춘 모델정도.
(딥러닝을 이용하면 딥 피노타이핑이라고 불리는 것 같기도)
Radiation oncology(방사선 관련 종양학)도 역시 NLP 알고리즘으로부터 여러 수혜를 받을 수 있습니다.
하지만, 아래와 같은 챌린지들도 있습니다.
컴퓨터 과학자와 방사선 종양학 커뮤니티 간에 활발한 교류가 필요하다. 정도?
본 서베이 페이퍼는 NLP 모델에 대한 입문 지침을 제공합니다.
Paper: https://academic.oup.com/jamia/article/27/3/457/5651084?login=true
Objective
해당 서베이 페이퍼는 임상 분야에서 딥러닝 기반 NLP 연구들에 대해 체계적으로 리뷰합니다.
특히, methods, scope, context 3가지 체계를 위주로 정량적인 평가를 제공합니다.
Materials and Methods
저자들은 주로 전자 의무 기록을 토대로 하는 여러 NLP 방법론들을 다뤘습니다.
MEDLINE, EMBASE, Scopus, ACMDL(Association for Computing Machinery Digital Library), ACLA(Association for Computational Linguistics Anthology) 등의 저널을 기반으로.
Results
모델 관점에서는 RNN 계열이 60.8%, word2vec embeddings 계열이 74.1%로 가장 많이 쓰였습니다(2018년까지).
태스크 관점에서는 text classification, named entity recognition, relation extraction같은 정보 추출 태스크가 89.2%로 가장 많았습니다.
물론 다른 태스크들도 (규모는 적을지 언정) 많았습니다(long tail).
Discussion
의학 도메인 관련 NLP 기술들이 많아졌음은 당연하고, 그 중에서도 일종의 공통적인 관계를 찾아볼 수 있었습니다.
가령, sequence-labelling named entity recognition에 대해선 RNN을 주로 사용했다든지..
Conclusion
clincal NLP 분야는 아직 왕성하게 연구되지 않았기 때문에, 본 리뷰는 인기 있고 독특한 트렌드를 다룹니다.
Paper: https://www.sciencedirect.com/science/article/pii/S1532046419302436
분산 벡터 표현(Distributed vector representations) 혹은 임베딩(embeddings)은 다양한 길이의 text를 고정된 길이의 dense vector로 매핑시킵니다.
이로 인해 prior knowledge를 포착할 수 있고, 이렇게 포착한 모델을 이용해 downstream task에 전이학습시킬 수 있죠.
NLP 기반 딥러닝 방법론들에는 이런 임베딩이 사실상의 표준이 됐지만, Clinical Natrual Language Processing 분야에 있어서는 구체적인 리뷰 페이퍼들이 별로 없었습니다.
그래서 자기네들이 했다.
해당 서베이 페이퍼에서는 주로 아래와 같은 요소들을 다룹니다.