230302 Bioinfo study-1 (Data processing, Data format)

sicknchic·2023년 3월 3일
0

Bioinfo_Study

목록 보기
1/8
post-thumbnail

0. Opening

3월 2일 목요일부터 매주 2시간씩 Bioinformatics 데이터 분석을 배우게 되었다.

일단은 GEO 등에서 공개된 데이터를 이용해서, data 전처리부터 R을 이용한 통계처리까지 해보는 것으로 이야기되었다.. 추후에 박사님이 실험데이터를 얻으면 그 데이터를 이용해서 스터디가 진행될 수도 있다.

아마 ATAC-Seq, ChIP-Seq 데이터를 먼저 얻을 것이기 때문에 ATAC-Seq과 ChIP-Seq 데이터 처리하는 것을 먼저 배우게 될 것이고, 교수님이 시간적 여유가 된다면 RNA-seq이나 MNase-seq 데이터도 처리하는 법을 배우지 않을까 싶다.

따라서, 당분간은 주로 ATAC-Seq에 관련된 글을 포스팅할 것 같다.

1. Data processing

① ATAC-seq

- Adapter trimming (cutadapt)

Sequencing을 하기 위해서는 adapter가 필요함. 하지만, sequencing이후 assembly과정에서는 adapter가 없는 순수한 DNA sequence가 필요함. 따라서, read말단에 존재하는 adapter를 제거하는 과정이 필요함.

- Genome alignment(bowtie2)

reference genome을 이용해 DNA 단편을 sequencing 후 다시 genome을 조립하는 과정. 해당 read가 어느 chromosome에 있는지 등을 파악.

- Sort & Index & Mark duplicate (samtools, biobambam)

duplication은 PCR을 이용한 library construction 과정에서 생김. 정말 우연찮게 똑같은 서열이 다른 위치에 있을 수 있지만 확률상 희박함. 이러한 duplication은 조립과정에서 도움이 되기보다는 편향의 원인이 됨. 하나의 read가 많은 것보다, 여러개의 read가 골고루 널리, 비슷한 양으로 있는 것이 이상적임.

- Create browser tracks and peak calling (MACS)

sequencing 데이터에서 peak는, 해당 지점에서 높은 신호 또는 강도를 가지는 신호의 꼭대기 지점을 의미. Peak는 주로 open chromatin(ATAC-seq), 단백질 결합 영역(ChIP-seq), 유전자 발현 제어 영역(RNA Sequencing) 등과 관련된 DNA sequence 구간.

- Make consensus peak list (R)

통계처리

- Sort and annotate (nearest TSS) consensus peaks (Homer)

ATAC-seq의 경우 peak를 나타내는 지점은 open chromatin으로 enhancer의 가능성이 높음. peak에서 가장 가까운 gene을 찾는 과정 (enhancer가 항상 gene과 가까운 것은 아니긴함..)

- Calculate motif accessibility (ChromVAR)

② RNA-seq

- Adapter trimming (cutadapt)

- Genome alignment (STAR)

- Sort & Index & Mark duplicate (samtools, biobambam)

- Read quantification (htseq)

2. File format

① FASTQ

  • FASTQ format은 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format.
  • 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용

② Binary Alignment Map file (BAM file)

  • sequence date를 저장하고 있으며, Binary형식으로 바로 열람이 불가능하다. 대신, 용량이 작다는 장점이 있다
  • Header section과 alignment section을 포함하고 있음.
    • Header: sample name, sample length, alignment method에 관한 내용을 포함
    • alignment: read name, read sequence, read quality, alignment information, custom tags에 관한 내용을 담고 있음.
      read name에는 chromosome, start coordinate, alignment quality, match descriptor string이 포함

③ pl

  • pl파일은 perl 인터프리터를 사용하여 컴파일되고 실행되는 Perl로 작성된 스크립트
profile
We will find a way. We always have.

0개의 댓글