Paper: https://medinform.jmir.org/2021/10/e23898/
정보 관련 기술이 너무나 빠르게 발달하고 있기 때문에, 역시 상당히 많은 양의 health data도 처리할 필요가 있습니다.
특히, 진단 텍스트(diagnosis text), 퇴원 요약서(discharge summaries), 온라인 의학 토론, 임상 시험의 자격 기준 등 많은 양의 가치 있는 natrual text가 존재합니다.
현재는 NLP분야와 Health Care 분야 간 교집합에 해당하는 Health natural language processing이 방법론 개발 / 산업 응용 등에 중요한 역할을 하고 있습니다.
해당 서베이 페이퍼는 health-NLP와 의학 분야에서의 응용에 대해 최신 방법론들을 다룹니다.
JMIR Medical Informatics에 투고된 페이퍼들만 다루는 듯 합니다.
Keyword: *health care; unstructured text; natural language processing; methodology; application
의학 분야에서 Text data는 unstructured format으로 많이 주어지는데, 여기에는 NLP 테크닉들이 꽤나 유용하게 쓰일 수 있습니다.
또한, NLP는 자동적으로 많은 양을 분석함으로써 의사 결정에도 도움이 되고, 적절한 행동을 취하게끔 해줍니다.
가령, Velupillai et al은 semantic analysis, covering the development of efficient methods for health corpus annotation/deidentification, 그리고 임상 환경에서의 NLP 활용 등 최근의 발전된 연구들을 리뷰했습니다.
Kalyan and Sangeetha는 health NLP를 위한 임베딩을 위주로 다루었습니다(for text representation).
그 외에도, 많은 컴피티션과 여러가지 Tool들을 배포하고 있는 상황입니다.
예를 들어, OHNLP나 Apaches cTAKEs.
주로 전자의무기록에서 정보를 추출하거나, 주석을 달아주거나, information을 아~주 잘 처리하는 NLP 시스템을 다루거나...
Health NLP는 다양한 의료 분야 주제를 다루는 데 도움이 됩니다.
뿐만 아니라, 당연하게도 의료 개인화를 위해 기존의 NLP 테크닉들을 사용할 수 있습니다.
의학 정보 추출(Medical Information Extraction)은 의료 정보학의 기반을 책임지는 핵심 기술입니다.
중국 연구긴 하지만, Zhang et al은 중국어 EMR 데이터셋을 구축해, 6개 가량의 entity와 BERT를 활용해 Chinese medical entity recognition하는 방법론을 제안했습니다.
2018년 SoTA라곤 하는데 중국 벤치마크는 관심이,,
또한, 화학물질과 질병 사이의 관계를 자동적으로 추출하는 모델 또한 biomedical text mining 분야에서 중요한 역할을 하고 있습니다.
(graph convolution에 대한 얘기 생략)
Temporal infromation는 질병의 진행상황, 처방전, 의약품, 수술진행과정, 퇴원 요약 등 내러티브한 clinical text로 많이 나타나 있습니다.
이런 (비교적 unstructued text인) 자연어를 잘 분석하고 이해해, temporal expressions(시간적 표현(?))을 추출하고, 정규화한다면, 임상 분야 연구든, 아니면 실용적인 상황이든, 굉장한 도움이 될 것입니다.
Pan et al은 rule-based, patten learning-based 모델을 활용해 중국어 narrative clinical text로부터 temporal expressions을 추출하고 정규화하는 모델을 제안했습니다.
이렇듯, 의료 정보를 추출하는 연구들은 굉장히 많지만, 여전히 아래와 같은 문제들을 지니고 있씁니다.
아...
무슨 연구가 다 중국 특화 연구네요..
그만 읽는걸로