STAR 실습해보기

Junho_Mun·2025년 11월 7일

1. 파일 준비

우리는 효모(Saccharomyces cerevisiae)의 유전자 정보들을 STAR를 이용해 정렬하기 위해 다음과 같은 파일이 필요하다.

  1. 참조 유전체 파일 (.fasta) : 효모의 전체 DNA 구성이 적힌 파일으로서 STAR는 해당 파일을 기준으로 정렬해나간다.
    • Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa
  2. 유전자 주석 파일 (GTF) : 참조 유전체 파일에서 실제 유전자 (Exon, Intron)의 위치가 어디인지 좌표를 기록한 파일이다.
    • Saccharomyces_cerevisiae.R64-1-1.111.gtf
  3. RNA-Seq Read (.Fastq) : 우리가 분석할 실제 시퀀싱 데이터이다.
    • ERR458493.fastq

2. 인덱싱 단계

STAR \
--runMode genomeGenerate \
--runThreadN 2 \
--genomeDir ./genome_index \
--genomeFastaFiles Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa \
--sjdbGTFfile Saccharomyces_cerevisiae.R64-1-1.111.gtf \
--sjdbOverhang 99 \
--genomeSAindexNbases 10
  • --runMode genomeGenerate : STAR의 실행 모드는 genomeGenerate(유전자 인덱스 생성)alignReads(정렬) 로 구분된다.
  • --genomeDir : 인덱스 파일들의 출력 디렉토리를 지정한다.
  • --genomeFastaFiles : 인덱싱의 기본 입력 1 파일로써, 참조 유전체 파일을 지정한다.
  • --sjdbGTFfile : 인덱싱의 기본 입력 2 파일로써, GTF파일을 지정한다. STAR는 이. 파일을 읽어 Splice Junctions(SJ) 목록을 미리 만들어 둔다.
  • --sjdbOVerhang : SJ를 만들때, Exon의 경계에서 양쪽으로 몇 개의 염기를 더 읽어서 인덱스에 포함할 것인가?이다.
    • 일반적으로 리드 길이 - 1로 설정하는 것이 표준이다.
  • --genomeSAindexNbase : SA인덱스의 정밀도를 조절하는 메모리 관련 옵션이다.

3. 정렬 단계

STAR \
--runMode alignReads \
--runThreadN 2 \
--genomeDir ./genome_index \
--readFilesIn ERR458493.fastq \
--outFileNamePrefix ./alignment_output/ERR458493_SE_ \
--outSAMtype BAM Unsorted \
--quantMode GeneCounts
  • --runThreadN : 정렬 작업을 수행할 때 사용할 CPU 스레드 수를 지정한다.

  • --genomeDir ./genome_index : 1단계에서 출력했던 디렉토리를 이번에는 입력으로 사용해야한다.

  • --readFilesIn : 정렬한 시퀀싱 데이터 파일이다.

  • --outFileNamePrefix : 결과 파일이 저장될때, 공통으로 붙을 접두사를 지정한다.

  • --outSAMtype BAM Unsorted

    -BAM : 결과를 BAM(표준 압축 바이너리 형식)으로 저장한다. (SAM의 압축버전 )

    • Unsorted : 좌표순 정렬은 하지말고, 찾은 순서대로 저장한다.
  • --quantMode GeneCounts : 정렬과 동시에 GTF를 기준으로 유전자 별로 리드가 몇 개인지 카운트하는 명령이다.

4. 결과 파일

Log.final.out

해당 파일은 STAR가 생성한 요약 리포트이다.

  • Number of input reads : 총 몇개의 리드를 읽었는지,
  • Uniquely mapped reads % : 몇 %가 유전체에 성공적으로 정렬 되었는지,
  • Number of splices : 스플라이싱을 몇개나 발견했는지
    등을 수치로 내세워 정렬 분석의 품질을 설명한다.

ReadsPerGene.out.tab

각 유전자에 리드가 몇 개씩 카운트 되엇나에 관한 텍스트 파일으로, 다음 통계적 분석 단계의 입력 자료가 된다.

.Bam & .bai

정렬 결과 파일으로, 모든 리드가 어디에 어떻게 정렬되어있는지에 대한 모든 정보가 담겨있다.
해당 파일들로 IGV에서 시각화가 가능하며, 역시 다음 분석 단계의 입력 파일이 된다.

profile
Bioinformatics and Data science

0개의 댓글