FASTA 포맷: 텍스트 기반 포맷. 염기서열 또는 단백질서열을 나타내기 위해 만든 파일 포맷.
FASTA 파일은 > 기호로 시작.
FASTQ 포맷: 텍스트 기반 포맷. 염기서열과 염기서열에 해당하는 퀄리티 점수를 포함한 파일 포맷
총 네 줄로 구성. 4줄 -> 하나의 리드(Read)를 이룸(*리드(Read)란? 시퀀서가 샘플의 서열을 한 번에 읽은 길이)
*Phred quality score 공식
Q = -10 log(10,P) (Q: quality, P; probability)
-> P는 시퀀서가 염기를 잘못 읽을 확률
염기를 맞게 읽을 확률은 1 - P
SAM(Sequence Alighnment Map) 파일: 텍스트 기반 포맷, 리드의 정렬된 데이터 담고 있음
BAM(Binary Alignment Map): SAM 파일의 2진 형식 파일, 압축률 뛰어나 SAM보다 파일 크기 매우 작음.
SAM/BAM 파일: 헤더 + 정렬 부분
CIGAR 문자열
-M: match, 정렬된 리드가 맞춰짐
-I: insert, 염기 추가됨
-D: deletion, 염기 빠짐
-N: skipped region, 염기가 건너뛰어졌음
-S: soft clip, 리드의 염기가 잘렸으나 SAM/BAM파일에는 남아있는 잘린 서열
-H: hard clip, 리드의 염기 잘렸으며 SAM/BAM파일에도 남아있지 Xx
-P: padding, 기준 서열에는 없지만 리드에는 추가된 패딩 서열
BED(browser extensible data)포맷: 유전체 구간별로 나누어 구간 특징을 주석으로 표기할 수 있는 파일 형식, 텍스트 파일, 구간 길이 나타내는 데 효과적임.
필수적으로 3개 열, 추가적으로 9개 열까지 가능
VCF(variant calling format): 변이(variant) 표기를 위해 만들어진 포맷. 메타데이터 / 내용