DEG 분석에서 음이항 분포를 사용하는 이유는 RNA-seq 데이터의 특성인 과분산을 반영하여 유전자 발현 수준을 보다 정확하게 모델링 하기 위함입니다.
RNA-seq 데이터는 각 유전자에서 유래한 read의 개수를 세는 방식으로 얻어지는 이산적(discrete) 데이터입니다. 이 데이터는 동일한 조건의 샘플 간에도 상당한 변이(variability) 를 보이는데, 이를 과분산(overdispersion) 이라고 합니다. 과분산은 생물학적 시스템의 내재적 변이로 인해 발생하며, 세포 주기, 미세환경, 확률적 유전자 발현 등 다양한 요인에 의해 유발됩니다.
DEG 분석에서 각 read를 하나의 베르누이 시행으로 간주할 수 있습니다. 이 때 '성공'은 해당 read가 특정 유전자에서 기원했음을 의미합니다. 따라서 각 시행의 '성공' 확률은 그 유전자의 발현 수준과 직결됩니다. 많이 발현될수록 해당 유전자에서 기원한 read를 관찰할 확률, 즉 '성공' 확률이 높아지게 됩니다.
음이항 분포에는 두 가지 매개변수 와 이 있습니다.
포아송 분포는 평균과 분산이 같다는 특성으로 인해 RNA-seq 데이터의 과분산을 적절히 설명할 수 없습니다. 파라미터가 한개 로, 평균과 분산을 분리할 수 없습니다. 즉, 따로 추정/설정할 수 없습니다.
과분산을 고려하지 않으면 유전자 발현량의 평균(값)을 과소추정하여 위음성 결과를 초래할 수 있습니다.
반면 음이항 분포는 값을 통해 과분산을 고려하여 값의 보다 정확한 추정을 가능하게 합니다. 이는 RNA-seq 데이터의 특성을 적절히 반영하여 DEG 분석의 통계적 검정력을 높이는 데 매우 중요합니다.
DEG 분석에서는 두 조건(예: 정상 vs 질병) 간의 발현량 차이를 비교합니다. 이를 위해 각 조건에서 유전자의 발현량 데이터를 음이항 분포로 모델링하고, 추정된 값을 비교합니다. 이 때, 값은 과분산을 고려하기 위해 사용됩니다.
구체적으로, 두 조건 간 값의 차이를 통해 발현량 변화를 평가합니다. 값을 관찰하는 것은 데이터의 특성을 이해하고 값을 보다 정확히 추정하는 데 도움이 될 수 있습니다. 그러나 값의 차이 자체가 DEG 식별의 기준이 되는 것은 아닙니다.
음이항 분포는 RNA-seq 데이터에서 관찰되는 과분산을 적절히 모델링할 수 있어 DEG 분석에 적합합니다. 이 분포의 매개변수 는 유전자의 발현 수준을, 은 발현량의 생물학적 변이를 반영합니다.
DEG 분석에서는 두 조건 간 값의 차이를 통해 발현량 변화를 평가하며, 값은 과분산을 고려하여 값 추정의 정확성을 높이는 데 활용됩니다. 이렇게 음이항 분포를 사용한 DEG 분석은 RNA-seq 데이터의 특성을 잘 반영하면서도, 유전자 발현의 변화를 통계적으로 평가할 수 있는 강력한 도구가 됩니다.
추가적인 질문 환영합니다.
과분산 고려해서 DEG 분석을 수행하는 것은 edgeR에서 제안하였음.