QIIME2 가이드라인
QIIME2란?
QIIME2 (Quantitative Insights Into Microbial Ecology 2)는 마이크로바이옴 데이터 분석을 위한 통합 플랫폼으로, 재현 가능한 분석과 데이터 시각화를 지원하는 차세대 생물정보학 도구입니다.
QIIME2 핵심 구성 요소
1. Artifact (.qza)
- 정의: 생물정보 데이터를 저장하고 관리하는 특별한 파일 형식
- 특징: 데이터와 메타데이터가 함께 저장되어 데이터 출처 추적 가능
- 역할: 분석 파이프라인의 중간 데이터 저장소
2. Visualization (.qzv)
- 정의: 시각화 결과를 생성하는 도구의 출력물
- 특징: 웹 브라우저에서 직접 확인 가능한 대화형 시각화
- 용도: 분석 결과의 해석과 품질 평가
3. Pipeline
- 정의: 이전 단계의 출력이 다음 단계의 입력으로 연결되는 워크플로우
- 장점: 재현 가능한 분석과 데이터 추적성 보장
- 구조: 각 단계별 아티팩트가 순차적으로 연결
마이크로바이옴 데이터 분석이 중요한 이유
16S rRNA 유전자의 특징
- 보편성: 모든 생명체에 존재하는 리보솜 RNA
- 계통학적 마커: 종간 다양성을 나타내는 phylogenetic marker
- 보존 영역: PCR 증폭에 용이한 다수의 보존된 영역 보유
- 가변 영역: 9개의 variable 영역으로 genus level까지 구별 가능
16S rRNA Amplicon Sequencing vs Whole Genome Shotgun
| 특징 | 16S rRNA Amplicon | Whole Genome Shotgun |
|---|
| 대상 | 특정 유전자 영역 (Targeted) | 전체 유전체 |
| 비용 | 상대적으로 저렴 | 고비용 |
| 분석 깊이 | 분류학적 구성 분석 | 기능 유전체 분석 가능 |
| 처리 속도 | 빠름 | 느림 |
| 적용 분야 | 군집 구조 분석 | 기능 분석, 메타게놈 |
QIIME2 데이터 처리 워크플로우
1. 데이터 전처리
Demultiplexing
- 목적: 샘플 식별을 위한 바코드 추출 및 리드 분류
- 특징: Single-end 데이터에서 주로 필요 (Paired-end는 보통 사전 처리됨)
품질 검사 (Quality Control)
- Adapter Trimming: 어댑터 서열 제거
- Quality Trimming: 낮은 품질 서열 제거 (Q20-Q30 권장)
- Chimera Checking: 키메라 서열 검출 및 제거
- Paired-end Reads Merging: 양방향 리드 병합
2. 특성 추출 방법
OTU (Operational Taxonomic Units) 방식
97% 유사도 기준으로 서열을 그룹화
-
De novo OTU Picking
- 장점: 샘플 내 생물학적 변이를 정확히 반영
- 단점: 샘플 간 비교 어려움, 재현성 낮음
-
Closed Reference Picking
- 장점: 샘플 간 비교 가능, 재현성 높음
- 단점: 데이터베이스 의존성, 정보 손실 가능
-
Open Reference Picking
- 방식: Closed + De novo 결합
- 특징: 데이터베이스 매칭 후 미매칭 서열은 de novo 처리
ASV (Amplicon Sequence Variants) 방식 ⭐
QIIME2 권장 방법 - 노이즈 제거를 통한 정확한 변이 추출
-
DADA2
- 특징: Error modeling을 통한 정밀한 노이즈 제거
- 장점: 개별 변이 분리, 세밀한 결과 제공
- 적용: Sequencing error 모델링 및 제거
-
Deblur
- 특징: 고정 길이 서열 처리
- 장점: 빠른 처리 속도, 단순한 방법
- 적용: 클러스터링 없이 직접 변이 추출
다양성 분석 (Diversity Analysis)
Alpha Diversity (α-다양성)
- 정의: 개별 샘플 내 미생물 다양성
- 지표:
- Shannon Index: 정량적 다양성
- Observed Features: 정성적 다양성
- Faith's PD: 계통학적 다양성
- Evenness: 균등도
Beta Diversity (β-다양성)
- 정의: 샘플 간 미생물 군집 차이
- 지표:
- Jaccard Distance: 정성적 비유사성
- Bray-Curtis Distance: 정량적 비유사성
- UniFrac Distance: 계통학적 비유사성
QIIME2의 장점과 활용 효과
강점
- 생물학적 데이터 최적화: 마이크로바이옴 연구에 특화
- 워크플로우 통합: 전체 분석 과정의 일관성
- 재현 가능한 분석: 아티팩트 시스템을 통한 데이터 추적성
- 풍부한 시각화: 대화형 시각화 도구 제공
분석 효과
- 군집 구조 파악: 샘플별 미생물 조성 비교
- 생물학적 의미 도출: 환경/조건에 따른 미생물 변화 분석
- 통계적 검증: 그룹 간 유의미한 차이 검증
- 예측 모델링: 특정 조건의 바이오마커 발굴
시각화 도구 비교
QIIME2 내장 시각화
- 장점: 생물학적 데이터 최적화, 간단한 시각화, 워크플로우 통합
- 단점: 복잡한 네트워크 분석 부족, 커스터마이징 한계
Cytoscape
- 장점: 복잡한 네트워크 시각화, 다양한 플러그인, 고급 커스터마이징
- 단점: 데이터 준비 과정 복잡, 기본 생물 다양성 분석에 부적합
주요 용어 정리
- Cutadapt: 어댑터 서열 제거 도구
- Phylogeny: 계통학적 관계 분석
- Phred Score: 염기 호출 품질 점수
- Taxa/Taxonomy Annotation: 분류학적 할당
- Single-end vs Paired-end: 단방향 vs 양방향 시퀀싱
- Chimera: 두 개 이상의 다른 서열이 결합된 인공 서열
결론
QIIME2는 마이크로바이옴 연구의 표준 도구로, 16S rRNA 유전자 분석을 통해 미생물 군집의 구조와 기능을 체계적으로 분석할 수 있습니다. ASV 기반 분석과 다양한 다양성 지표를 활용하여 생물학적으로 의미 있는 결과를 도출할 수 있으며, 재현 가능한 분석 워크플로우를 통해 신뢰성 높은 연구를 수행할 수 있습니다.
간단하고 쉬운 설명
- QIIME2는 미생물데이터 분석에 있어 따라가기 쉬운 파이프라인을 가진 도구이다.
- 데이터에 적합한 독립된 가상환경에서 수행할 수 있어서 프로그래밍 언어의 능력이 크게 요구되지않는다.
- 파이프라인을 따라가면 하나의 디렉토리에서 수행할 경우 문제되지않지만, 파일들을 정리하면서 진행할 경우 경로설정만 잘해준다면 너무나도 쉽게 목표하는 결과를 얻을 수 있다.
<추천>
제공하는 tutorial을 꼭 수행하고 실무에 적용할 것.(tutorial을 수행할 경우 더욱 빠른이해와 프로젝트에 알맞은 파이프라인을 설계할 수 있다.)
[출처]
[1] QIIME2 메인 사이트(Library, View)
(https://www.dataq.or.kr/www/sub/a_07.do#none)
[2] QIIME2 Moving Pictures 예제
(https://amplicon-docs.qiime2.org/en/latest/tutorials/moving-pictures.html)
[3] https://www.zymoresearch.com/blogs/blog/microbiome-informatics-otu-vs-asv
[4] Edgar, Robert C. "UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing." BioRxiv (2016): 081257.
[5] Nearing, Jacob T., et al. "Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches." PeerJ 6 (2018): e5364.
#Microbiome #QIIME2 #Bioinformatics