1. TCGA

예갈조·2025년 4월 9일

Omics Analysis

목록 보기
1/2
post-thumbnail

last update 25.04.09



TCGA(The Cancer Genome Atlas)


  • 주요 기관: NCI(미국 국립암연구소) + NHGRI(국립인간게놈연구소)

  • 암의 생물학적 기전을 이해하고 진단 및 치료법 개발에 기여하기 위해서 시작된 대규모 프로젝트

    • 2005 ~ 2015: 펀딩이 시작되고 끝난 시점
    • 2018: 최종적으로 분석이 완료된 시점 → Pan-Cancer Atlas



TCGA Sample Annotation


TCGA 샘플들은 바코드 하나에 정보가 다 담겨져 있다.

예시: TCGA-02-0001-01C-01D-0182-01

부분의미
TCGA프로젝트 이름
02TSS(Tissue Source Site)
0001환자 ID
01C샘플 종류 + vial ID
(01: primary tumor, 11: Adjacent normal*, 10: normal .. 등)
01D분석 유형(DNA, RNA 등)
0182-01배치/플레이트 정보

*adjacent normal이란,

암 환자 본인의 종양 바로 옆에서 바로 채취한 정상 조직

  • 즉, 같은 환자의 정상 조직

  • Tumor sample과 비교 분석할 때 가장 많이 쓰이는 matched normal

  • 보통 수술할 때 tumor sample과 같이 수집하기 때문에 조직학적으로는 정상처럼 보이지만 실제로는 암의 미세환경에 영향을 받을 수고 있기 때문에 유전체적으로 비교 분석하는 것이 중요하다.



Levels of TCGA data = Levels of Processing


Level numberLevel typeExampleDescription
Level 1Raw data- FASTQ
- BAM
- Microarray raw intensity
- 실험에서 바로 나온 데이터
- 분석 전 단계
- 보통 큰 용량
Level 2Processed data- BAM 정렬 파일
- Intensity 수치
- QC 통과된 파일
- 초기 품질 검사(QC) 통과 후 정렬된 데이터
- 연구자들이 분석을 시작할 수 있는 기초 포맷
Level 3Interpreted data- VCF (Variant Call Format)
- Gene expression matrix
- Methylation beta values
- 변이, 발현량 등 생물학적 의미를 가진 값으로 가공된 데이터
- 연구자들이 가장 많이 사용하는 단계
Level 4Summarized data- Significant mutations
- Clinically relevant summary tables
- Pathway 분석 결과
- 해석된 분석 결과
- 논문에서 바로 활용하는 수준

❓ 연구자들은 보통 어디를 사용하는가?
  • Level 3: 대부분의 Bioinformatics 연구자들이 사용하는 단계
  • Level 4: 리뷰 논문, pathway analysis, 보고서 등에 사용
  • Level 1/2: 특별히 분석 pipeline을 직접 돌릴 때 사용(variant calling 새로 하고 싶을 때 ..)



TCGA data


portal.gdc.cancer.gov

  • 해당 링크에서 접근 가능

  • controlled data는 따로 access 신청해서 key를 받아야 접근할 수 있음(유전자로 환자 유추 가능하기때문에...)



TCGA alternative data


  1. Broad Firehose

  2. cBioPortal

  3. UCSC Xena browser



ICGC(International Cancer Genome Consortium)


  • 세계 여러 나라가 참여해서 암 유전체를 공동으로 연구하는 초대형 프로젝트

  • TCGA가 미국 주도였다면 ICGC는 다국적 컨소시엄

  • 처음에는 Whole Exome Sequencing(WES)과 While Genome Sequencing(WGS) 두가지 플랫폼을 모두 모으는 25K initiative project를 진행

  • ICGC와 TCGA는 나중에 PCAWG(Pan-Cancer Analysis of Whole Genomes) 프로젝트에서 합쳐짐. WGS 중에서 고퀄리티 샘플만을 모아 진행함.


✅ ICGS-PCAWG → ICGC-ARGO(현재 온고잉 프로젝트)




reference

Big data in precision oncology - LAIDD

1개의 댓글

comment-user-thumbnail
2025년 4월 11일

똑똑하다 .,.

답글 달기