[Research] 문헌 검색 방법(Literature Search Strategy)

u_yonu·2026년 2월 14일

LiteratureSearchStrategy Research 문헌검색방법

Research

목록 보기

1/1

오늘은 간단하게 '문헌'을 검색하는 방법을 알아보려고 한다.
실제, '문헌' 이라는 것은 사전적으로는 아래와 같다.

하지만, 오늘날 많은 연구자들에게 '문헌'은 보통 선행연구를 알아 볼 수 있는 '논문'을 많이 말한다.
대학생, 대학원생, 직장인들까지 많은 사람들은 정보라는 것을 찾아보는 삶을 살아가고 있다.
하지만, 요즘은 참 거짓 정보가 넘치고 신뢰성있는 자료를 찾는 과정이 점점 더 어려워지고 있다.
오늘은 '비교적' 신뢰 할 만 (비.교.적. 강조.) 논문을 찾아보고자 한다.

이 글은 “논문을 찾는 방법”을 넘어서, 연구 질문을 검색 가능한 형태로 바꾸고,
-> 재현 가능한 검색식을 만들고, 체계적으로 스크리닝/정리하는 과정까지 다룬다.
-> (전공/분야 상관없이 적용 가능한 프레임워크 + 보건/의생명 쪽 예시 포함)

문헌 검색

문헌 검색에서 가장 큰 실수는 '일단 검색창에 넣고 많이 읽자'이다. 실제 연구에서는 검색의 목표가 명확해야 한다.
쉽게 생각하면 구글, 네이버 창을 열어 그저 '검색'을 하면 되는 것 같지만, 학술적인 검색을 위해서는 핵심질문을 설정하고, 검색전략 수립, 검색원 선정, 검색어의 선택과 조합 등 일련의 과정이 필요하다.

핵심 질문 설정

검색 전략 수립

데이터베이스(DB) 선택

검색어/검색식 설계

스크리닝 및 기록(로그)

그렇다면, 검색은 어떻게 하면 좋을까? 이또한 검색의 목표에 따라 다르다.

탐색적 검색: 주제 감 잡기, 키워드/연구흐름 파악
논문 작성용 검색: 서론/배경/근거를 탄탄하게 만들기
체계적 문헌고찰(SR/MA)용 검색: 재현 가능한 검색식 + 누락 최소화

같은 '문헌 검색'이라도 목표가 다르면

어디서 검색하는지(DB)
얼마나 넓게 찾는지(민감도)
무엇을 남기는지(스크리닝 로그)

가 완전히 달라진다.

검색에서도 민감도(Sensitivity)와 특이도(Specificity)를 생각해볼수 있다.

민감도 : 검색에 의해 적절한 연구/문헌을 찾을 가능성
-> 민감도가 높은 검색전략은 포괄적(comprehensive)인 검색

특이도 : 부적절한 연구/문헌을 배제할 가능성
-> 특이도가 높은 검색전략은 특정 문제에 대한 중요한 연구를 집중해서 포함하는 것을 목적으로 함

cf) 민감도와 특이도는 상쇄 관계라 목적에 따라 균형이 달라진다(예: SR/MA는 민감도 우선)

검색 전 확인 사항

당장 무언가를 검색엔진에서 검색하기 이전에 아래에 정리되는 것을 정리하면 효율이 확 올라간다.

1. 핵심 질문(Research Question)

내가 진짜 알고 싶은 것은 무엇인가?

2. 범위(Scope)

기간 : 예) 2015-2026
대상 : 예) 인간 / 동물 / 세포, 연령대, 지역 등
연구유형 : 예) RCT, cohort, cross-sectional, qualitative 등
언어 : 예) 한국어 / 영어 등

검색어 선정

검색어는 핵심 질문에 잠재적으로 관련된 문헌을 최대한 포함하기 위해, 보통은 폭넓게(민감도 높게) 설계한다.

~~(사실 이 글의 기반은 나중에 소개할 체계적 문헌고찰 / 메타분석의 기반이 되는 개념들이 많다)~~

(1) 핵심 질문 분해
핵심질문을 분해하여 개별요소 형태로 정리 각 개별요소에서 주요 개념어를 도출한다.

민감도를 높이기 위해 의학주제어, 유의어, 대안어 등을 활용할 수 있음
포괄적이고 정확한 검색을 위해 논리연산자 혹은 절단 검색 기능을 활용함

ex1) PICO (임상/중재)

Population (대상)
Intervention (중재)
Comparator (비교)
Outcome (결과)

예) 청소년 비만 예방을 위한 모바일 앱 중재가 BMI를 낮추는가?

참고 : 일반적으로 특정 의료 결과로만 분석할 경우를 제외하고 PICO중 결과/성과(O)에 해당하는 검색어는 검색식에 포함하지 않는 것을 권장

ex2) PECO (노출/역학)

Population
Exposure (노출)
Comparator
Outcome

예) “청소년에서 패스트푸드 섭취(노출)가 비만(결과)과 관련 있는가?”

ex3) SPIDER (질적 연구)

Sample / Phenomenon of Interest / Design / Evaluation / Research type

각각을 질문을 검색식으로 바꾸는 프레임워크라고 한다.
프레임워크는 '모든 요소를 다 넣는 게 정답이 아니라, 내가 검색에서 반드시 걸어야 하는 핵심 요소만 뽑는 도구이다.

(2) 키워드의 표현 방식

연구질문 중 청소년 비만에 대해 생각해보자. 검색을 진행한다고했을때, 비단 한가지 방법과 검색어로 적용할 수 있는 것이 아니다. 검색어는 아래와 같이 여러가지 종류로 나눠질 수 있다.

1) 자연어(Free text)
일상적으로 우리가 사용하는 자연어를 기반으로 작성할 수 있는 검색어를 말한다.

예) adolescent obesity, teen obesity, youth obesity

2) 통제어(Controlled vocabulary)

PubMed: MeSH
Embase: Emtree
예) obesity[MeSH], adolescent[MeSH]

MeSH : 의학주제어 혹은 의학주제표목(Medical Subjects Headings)

미국의학도서관에서 색인을 위해 구축한 계층적인 용어구조

Medline, Cocharne library, PsyclNFO 등 DB에서 제공

3) 유의어 / 대안어

약어, 유의어, 미국식 / 영국식 용어 차이

예1) overweight, body mass index, BMI
예2) 암 : cancer, carcinoma, tumor, neoplasm

adolescen* (truncation)

(3) 검색식 조합

1) 불리언 연산자

OR : 주로 비슷한 개념을 포함시킬 떄 사용. 합집합 개념(AUB)
ex) (adolescent OR teen OR youth)
AND : 주로 서로 다른 개념을 합칠 때 사용. 교집합 개념(A∩B)
ex) (adolescent OR teen OR youth) AND (obesity OR overweight)
NOT : 차집합(A-B) 개념. 필요한 단어가 제거되지 않도록 주의하여 사용
(obesity) NOT (mouse OR mice)

2) 절단 검색

$ 또는 *
- 어미에 붙이는 검색어로 제한 없이 검색됨
- 예) Cardio* → Cardiology (심장내과, 진료과), Cardiovascular disease (심혈관 질환, CVD), Cardiomyopathy (심근병증, 세부 질환), Cardiologist (심장전문의, 전문가)

	- 단어 내 혹은 어미에 붙이는 검색어로 정확히 한 문자만 치환하여 검색됨

예) wom#n -> woman, women

?
- 단어 내 혹은 어미에 붙이는 검색어로 한 글자 이하로(0 또는 1) 치환하여 검색됨
- 예) tum?r : tumor, tumour

참고 : 절단 / 와일드카드는 DB마다 문법이 다르므로, 검색 시작 전에 해당 DB의 wildcard 규칙(*, ?, # 등)을 먼저 확인하는 것이 안전하다.

데이터 베이스 선택

PubMed/MEDLINE: 의생명 기본, MeSH 강력, 무료
Embase: 약물/임상/유럽 커버리지 강함, Emtree 강력(유료)
Scopus: 광범위(공학/사회과학 포함), 인용분석 편함(유료)
Web of Science: 인용 네트워크/핵심 저널 중심(유료)
Google Scholar: 넓게 잡히지만 노이즈 많음, 재현성 약함
Cochrane Library: SR/RCT 중심

현실적으로 보통 모든 데이터 베이스를 보지는 않고, 논문 작성용은 성향이 적절한 1개만 선택하여 주로 보고, 체계적 문헌 고찰 같은 방법론적인 탐색을 할때는 3개 이상을 보게된다.

검색결과 정리

검색이 끝났다면, 이제부터는 ‘읽기’가 아니라 ‘정리’의 단계이다. 이 과정을 체계적으로 하지 않으면, 같은 논문을 여러 번 읽거나, 중요한 논문을 놓치는 일이 발생한다.

보통은 EndNote, Zotero 같은 서지관리 프로그램을 이용해 문헌을 정리한다.
(해당 프로그램 사용법은 차후에 별도로 다루도록 하자.)
정리를 하는 방법은 연구자 마다 다르지만, 간단하게 내가 하는 방식을 소개해보자면 아래와 같다.

기본정리 단계

검색 결과 전체 다운로드
→ 가능하면 RIS / BibTeX 형식으로 저장

중복 제거(Deduplication)
→ 여러 DB에서 검색했다면 중복 문헌이 반드시 발생
→ 프로그램의 자동 중복 제거 기능 + 수동 확인 병행

폴더 / 컬렉션 분류

추가 정리

체계적 접근을 위해 아래를 기록해두면 좋다.

검색 DB (예: PubMed, Embase)

검색 날짜

사용한 검색식

검색 결과 건수

포함/제외 기준

이 기록은 재현 가능성(reproducibility)을 보장하는 핵심 요소이고, 특히 연구적으로 검색을 사용하는 SR/MA를 진행할 경우 필수적이다.

오늘은 연구자들이 문헌을 검색하는 전략에 대해서 다뤄 보았다. 실질적으로 학부연구생과 석사과정 총 4년의 기간에서 크게 느꼈던 어려움 중에 하나는 바로 '논문'읽기였다.
결국 연구라는 것은 '거인의 어깨(Standing on the shoulders of giants)'위에 올라타서 지식의 지평을 넓히는 과정이다.
그러한 연구의 시작인 논문 읽기를 이 글을 통해 조금은 친숙해지셨으면 한다.

u_yonu

비전공자의 개발도전기