
last update 25.04.09

주요 기관: NCI(미국 국립암연구소) + NHGRI(국립인간게놈연구소)
암의 생물학적 기전을 이해하고 진단 및 치료법 개발에 기여하기 위해서 시작된 대규모 프로젝트
TCGA 샘플들은 바코드 하나에 정보가 다 담겨져 있다.
예시: TCGA-02-0001-01C-01D-0182-01
| 부분 | 의미 |
|---|---|
| TCGA | 프로젝트 이름 |
| 02 | TSS(Tissue Source Site) |
| 0001 | 환자 ID |
| 01C | 샘플 종류 + vial ID (01: primary tumor, 11: Adjacent normal*, 10: normal .. 등) |
| 01D | 분석 유형(DNA, RNA 등) |
| 0182-01 | 배치/플레이트 정보 |
❓ *adjacent normal이란,
암 환자 본인의 종양 바로 옆에서 바로 채취한 정상 조직
즉, 같은 환자의 정상 조직
Tumor sample과 비교 분석할 때 가장 많이 쓰이는 matched normal
보통 수술할 때 tumor sample과 같이 수집하기 때문에 조직학적으로는 정상처럼 보이지만 실제로는 암의 미세환경에 영향을 받을 수고 있기 때문에 유전체적으로 비교 분석하는 것이 중요하다.
| Level number | Level type | Example | Description |
|---|---|---|---|
| Level 1 | Raw data | - FASTQ - BAM - Microarray raw intensity | - 실험에서 바로 나온 데이터 - 분석 전 단계 - 보통 큰 용량 |
| Level 2 | Processed data | - BAM 정렬 파일 - Intensity 수치 - QC 통과된 파일 | - 초기 품질 검사(QC) 통과 후 정렬된 데이터 - 연구자들이 분석을 시작할 수 있는 기초 포맷 |
| Level 3 | Interpreted data | - VCF (Variant Call Format) - Gene expression matrix - Methylation beta values | - 변이, 발현량 등 생물학적 의미를 가진 값으로 가공된 데이터 - 연구자들이 가장 많이 사용하는 단계 |
| Level 4 | Summarized data | - Significant mutations - Clinically relevant summary tables - Pathway 분석 결과 | - 해석된 분석 결과 - 논문에서 바로 활용하는 수준 |
해당 링크에서 접근 가능
controlled data는 따로 access 신청해서 key를 받아야 접근할 수 있음(유전자로 환자 유추 가능하기때문에...)
Broad Firehose
cBioPortal
UCSC Xena browser
세계 여러 나라가 참여해서 암 유전체를 공동으로 연구하는 초대형 프로젝트
TCGA가 미국 주도였다면 ICGC는 다국적 컨소시엄
처음에는 Whole Exome Sequencing(WES)과 While Genome Sequencing(WGS) 두가지 플랫폼을 모두 모으는 25K initiative project를 진행
ICGC와 TCGA는 나중에 PCAWG(Pan-Cancer Analysis of Whole Genomes) 프로젝트에서 합쳐짐. WGS 중에서 고퀄리티 샘플만을 모아 진행함.
Big data in precision oncology - LAIDD
똑똑하다 .,.