RNA 시퀀싱과 음이항 분포

Kyeonghun Jeong·2024년 5월 30일
3

Transcriptome

목록 보기
4/6

음이항 분포의 '성공' 개념과 DEG 분석에서의 활용

DEG 분석에서 음이항 분포를 사용하는 이유는 RNA-seq 데이터의 특성인 과분산을 반영하여 유전자 발현 수준을 보다 정확하게 모델링 하기 위함입니다.

RNA-seq 데이터와 과분산

RNA-seq 데이터는 각 유전자에서 유래한 read의 개수를 세는 방식으로 얻어지는 이산적(discrete) 데이터입니다. 이 데이터는 동일한 조건의 샘플 간에도 상당한 변이(variability) 를 보이는데, 이를 과분산(overdispersion) 이라고 합니다. 과분산은 생물학적 시스템의 내재적 변이로 인해 발생하며, 세포 주기, 미세환경, 확률적 유전자 발현 등 다양한 요인에 의해 유발됩니다.

음이항 분포의 '성공' 개념과 베르누이 시행

DEG 분석에서 각 read를 하나의 베르누이 시행으로 간주할 수 있습니다. 이 때 '성공'은 해당 read가 특정 유전자에서 기원했음을 의미합니다. 따라서 각 시행의 '성공' 확률은 그 유전자의 발현 수준과 직결됩니다. 많이 발현될수록 해당 유전자에서 기원한 read를 관찰할 확률, 즉 '성공' 확률이 높아지게 됩니다.

  • 베르누이 시행: 각 유전자가 read를 배출하느냐 못하느냐를 하나의 베르누이 시행으로 간주하며, '성공'은 특정 유전자가 read를 배출한 것을 의미합니다.
  • 성공 확률 pp: 성공 확률 pp는 특정 유전자가 read를 배출할 확률을 나타내며, 이는 해당 유전자의 발현 수준과 직결됩니다.

음이항 분포의 매개변수 p와 r의 의미

음이항 분포에는 두 가지 매개변수 pprr이 있습니다.

  • pp: 각 베르누이 시행에서 특정 유전자가 read를 배출할 확률을 나타냅니다. pp값이 높을수록 해당 유전자의 발현량이 높습니다.
  • rr: 과분산의 정도를 결정하는 매개변수입니다. rr값이 작을수록 과분산이 크다는 것을 의미하며, 이는 동일한 조건 내에서 개별 세포 또는 샘플 간의 유전자 발현량 변이를 반영합니다.

포아송 분포의 한계와 음이항 분포의 필요성

포아송 분포는 평균과 분산이 같다는 특성으로 인해 RNA-seq 데이터의 과분산을 적절히 설명할 수 없습니다. 파라미터가 한개 λ\lambda 로, 평균과 분산을 분리할 수 없습니다. 즉, 따로 추정/설정할 수 없습니다.

과분산을 고려하지 않으면 유전자 발현량의 평균(pp값)을 과소추정하여 위음성 결과를 초래할 수 있습니다.

반면 음이항 분포는 rr값을 통해 과분산을 고려하여 pp값의 보다 정확한 추정을 가능하게 합니다. 이는 RNA-seq 데이터의 특성을 적절히 반영하여 DEG 분석의 통계적 검정력을 높이는 데 매우 중요합니다.

DEG 분석에서의 활용

DEG 분석에서는 두 조건(예: 정상 vs 질병) 간의 발현량 차이를 비교합니다. 이를 위해 각 조건에서 유전자의 발현량 데이터를 음이항 분포로 모델링하고, 추정된 pp값을 비교합니다. 이 때, rr값은 과분산을 고려하기 위해 사용됩니다.

구체적으로, 두 조건 간 pp값의 차이를 통해 발현량 변화를 평가합니다. rr값을 관찰하는 것은 데이터의 특성을 이해하고 pp값을 보다 정확히 추정하는 데 도움이 될 수 있습니다. 그러나 rr값의 차이 자체가 DEG 식별의 기준이 되는 것은 아닙니다.

요약

음이항 분포는 RNA-seq 데이터에서 관찰되는 과분산을 적절히 모델링할 수 있어 DEG 분석에 적합합니다. 이 분포의 매개변수 pp는 유전자의 발현 수준을, rr은 발현량의 생물학적 변이를 반영합니다.

DEG 분석에서는 두 조건 간 pp값의 차이를 통해 발현량 변화를 평가하며, rr값은 과분산을 고려하여 pp값 추정의 정확성을 높이는 데 활용됩니다. 이렇게 음이항 분포를 사용한 DEG 분석은 RNA-seq 데이터의 특성을 잘 반영하면서도, 유전자 발현의 변화를 통계적으로 평가할 수 있는 강력한 도구가 됩니다.

추가적인 질문 환영합니다.

1개의 댓글

comment-user-thumbnail
2024년 5월 30일

과분산 고려해서 DEG 분석을 수행하는 것은 edgeR에서 제안하였음.

답글 달기