https://aclanthology.org/2023.acl-long.451.pdf
💡 논문의 특징
1. radiographs에서 더 자세한 observation을 포함하는 report를 생성
2. 각 observation의 신뢰도(정확성)를 나타내는 상태 정보(Positive, Negative, Uncertain)를 포함.
3. tree reasoning mechanism 사용.
radiology report generation
challenge
- how to correctly maintain the consistency between the image and the lengthy textual report
Previous research
- planning-based methods :
- word-level realization 단계 전에, radiographs의 observation에 대한 high-level plans로만 구성된 report를 생성하는 방법.
- high-level textual plan만을 기본으로 report를 생성한다. 즉, 중요한 observation들(e.g., lung opacity)로만 구성되고, 관측의 정확성을 나타내는 상태(positive, negative, and uncertain)는 포함하지 않는다. (이상적인 report는 더 자세한 정보와 관측의 특징 및 상태, 초기 진단 inference 등을 포함해야 함. e.g., a subtle but new lung opacity, lung infection must be suspected …)
- 따라서 이 방법은 여전히 이미지(radiographs)와 텍스트(reports) 간의 cross-modal consistency를 높게 유지하지 못한다. 이 방법들의 가장 중요한 문제는 word-level generation의 단계에서 observation과 radiographs의 semantic information이 잘 활용되지 않는다는 점이다.
- 해결방법 : image information과 textual plan을 함께 고려해야 하며, stronger reasoning이 필요.
Proposed method
ORGAN, an Observation-guided radiology Report GenerAtioN framework.
크게 두 단계로 구성

- the observation planning stage
주어진 이미지를 통해 observation plan을 만드는 단계.
observation plan은 radiographs에서 찾은 major findings와 그 정확도의 상태(positive, negative, uncertain)를 포함하도록 한다.
- the report generation stage
Transformer model에 (images, 1단계에서 얻은 observation plan)을 입력하여 report를 생성하는 단계.
Tree reasoning mechanism
observation plan을 정교하게 보완하게 위한 추론 메커니즘으로 three-level tree reasoning mechanism을 사용함.
- the high-level observations
- the observation-aware n-grams
- the specific tokens
이 tree reasoning mechanism은 observations-aware n-grams에서 observations의 다양한 공통된 설명을 보고 이를 observation mention으로 구성한다. 이 메커니즘을 통해 observation 관련 정보를 동적으로 찾는다.
Limitations
pipeline 구조로 observation plan의 성능에 전체 성능이 영향을 많이 받으며, 작은 오류 발생 시 파이프라인을 통해 누적될 수 있다.