2. 바이오파이썬 파일 포맷

·2021년 12월 27일
0

BioPython🧬💻

목록 보기
3/6

FASTA 포맷: 텍스트 기반 포맷. 염기서열 또는 단백질서열을 나타내기 위해 만든 파일 포맷.
FASTA 파일은 > 기호로 시작.

FASTQ 포맷: 텍스트 기반 포맷. 염기서열과 염기서열에 해당하는 퀄리티 점수를 포함한 파일 포맷
총 네 줄로 구성. 4줄 -> 하나의 리드(Read)를 이룸(*리드(Read)란? 시퀀서가 샘플의 서열을 한 번에 읽은 길이)

  • 첫번째 줄: @ 문자로 시작하는 헤더, 염기서열이 읽힌 시퀀싱에 대한 정보 담고 있음
  • 두번째 줄: 시퀀서가 읽은 염기서열
  • 세번째 줄: 구분 문자로 + 기호
  • 네번째 줄: 두번째 줄의 퀄리티(품질)정보 담겨있음, 숫자로 나타내야 할 점수가 아스키 코드로서 알파벳으로 나타나있음

*Phred quality score 공식
Q = -10 log(10,P) (Q: quality, P; probability)
-> P는 시퀀서가 염기를 잘못 읽을 확률
염기를 맞게 읽을 확률은 1 - P

SAM(Sequence Alighnment Map) 파일: 텍스트 기반 포맷, 리드의 정렬된 데이터 담고 있음

BAM(Binary Alignment Map): SAM 파일의 2진 형식 파일, 압축률 뛰어나 SAM보다 파일 크기 매우 작음.

SAM/BAM 파일: 헤더 + 정렬 부분

CIGAR 문자열
-M: match, 정렬된 리드가 맞춰짐
-I: insert, 염기 추가됨
-D: deletion, 염기 빠짐
-N: skipped region, 염기가 건너뛰어졌음
-S: soft clip, 리드의 염기가 잘렸으나 SAM/BAM파일에는 남아있는 잘린 서열
-H: hard clip, 리드의 염기 잘렸으며 SAM/BAM파일에도 남아있지 Xx
-P: padding, 기준 서열에는 없지만 리드에는 추가된 패딩 서열

BED(browser extensible data)포맷: 유전체 구간별로 나누어 구간 특징을 주석으로 표기할 수 있는 파일 형식, 텍스트 파일, 구간 길이 나타내는 데 효과적임.
필수적으로 3개 열, 추가적으로 9개 열까지 가능

  • 필수 3개 열
    -chrom: 염색체
    -chromStart: 구간 시작되는 점, 시작 지점 0
    -chromEnd: 구간 끝나는 점
    BED파일이 나타내는 영역: chromEnd - chromStart

VCF(variant calling format): 변이(variant) 표기를 위해 만들어진 포맷. 메타데이터 / 내용

  • 메타데이터: # 기호로 시작하는 부분
    1) 두 개의 샵(##)으로 시작되는 부분: VCF파일에 대한 정보(key=value 관계로 표현)
    2) 한 개의 샵(#)으로 시작되는 부분: 헤더. 8개의 필수 열로 구성
    -CHROM(chromosome): 염색체 번호
    -POS(position): 위치
profile
3s as Semin Sarah Serika

0개의 댓글