Graph-tool 논문 1

Sylen·2025년 1월 3일

아래 튜토리얼은 1924년 G. Udny Yule이 왕립학회(영국)에서 발표한 논문,
“A Mathematical Theory of Evolution, based on the Conclusions of Dr. J. C. Willis, F.R.S.”
(이하 “Yule 논문”)의 핵심 내용을 수식·개념·원리에 초점을 맞추어 정리·설명한 것입니다.
이 논문은 식물(특히 속(屬, genus) 내 종(species) 분화)의 진화 과정을
“자연선택보다는 돌연변이(‘specific mutations’)를 통한 종의 탄생”이라는
Dr. Willis의 관점을 바탕으로, 수리적(확률론적) 모델을 제시·분석한 고전적 연구로 꼽힙니다.

1. 논문의 배경 요약

Dr. J. C. Willis는 식물의 분포(“Age and Area” 이론)를 분석하여,
1) 종(種)이 차지하는 분포 면적이 클수록 (대체로) 더 오래되었다(오래 살아남았다).
2) 속(屬)에 포함된 종의 수(“속의 크기”)가 많을수록 그 속 또한 더 오래되었다.
이는 고전적 “다윈주의(Darwinism)”와는 다른 결론이었다.
- 다윈주의적으로는, 작은 분포 면적(=적응도 낮음)을 가진 종이 “오래되었을 수도, 막 생겼을 수도” 있기 때문에,
  종/속의 크기가 ‘나이(연령)’와 직접적으로 상관이 있다고 보기 어려움.
- Willis의 관점은 “자연선택에 의해 점진적으로 새로운 종이 파생되는 것이 아니라,
  간혹 ‘돌연변이적’으로 완전히 새로운 종이 한 번에 생기는(mutation per saltum) 시나리오”를 지지.
- 그 돌연변이가 일단 생존 가능(viable mutation)이면, 넓은 범위로 퍼지는 데 어려움이 없어
  종이 단기간에 ‘상당한 영역’을 차지할 수 있음.
Yule은 이러한 Willis의 가정을 “종의 탄생(=speciation)이 확률적으로 일어나며,
한 번 생존 가능(mutant)으로 태어나면 대개 살아남는다”는 형태로 수리화하려 했습니다.
- 종 하나하나가 영원히 불멸하다는 뜻이 아니라, “소규모 지역에서 싹 튼 신생 종”이
  초기에 죽지 않고(‘viable’) 넓게 퍼질 기회가 충분하다는 가정입니다.
- 또한 속(genus) 수준에서도, 가끔씩 “속을 넘어서는 더 큰 돌연변이(‘generic mutation’)”가
  발생할 수 있다고 가정합니다.
Yule 논문의 주된 목표: 이 가정을 바탕으로, 종(또는 속)의 개수가 어떻게 시간에 따라 증가하며,
‘속 내 종수(크기)’ 분포가 어떻게 나타나는지 수학적으로 유도하고, 실제 곤충/파충류/식물 데이터에
적용해서 얼마나 잘 들어맞는지 확인.

2. 핵심 개념: “특정 확률로 새로운 종(돌연변이)이 발생한다”라는 모델

2.1 기본 가정

각 종(species)은 일정한 확률( p·dt )로 새로운 종(같은 속에 속하는 종)을 “던진다(throw)”.
- 아주 작은 시간 dt 동안에, “새 종이 생길(speciation) 돌연변이 사고가 일어날 확률”이 p·dt.
- 이 확률 p는 어떤 순간·어떤 종이든 동일하다고 가정(단순화).
각 속(genus)은 일정 확률( g·dt )로 완전히 새 속(새 genus)을 “던진다”.
- 여기서 “새 속이 생긴다”는 말은, 기존 속에서 나온 돌연변이가 너무 달라서 새로운 속으로 분류되는 경우.
- g는 역시 상수로 간주.
하나의 속에 종이 많다고, 새 종 발생 확률이 커지는 것은 (우선) 배제.
- 즉, 돌연변이는 “종(또는 속)의 ‘개체 수’”가 아니라 “존재하는 종(또는 속)의 ‘수’” 자체에 대해 동일확률로 발생.
- (이는 실제로는 문제가 많을 수 있으나, Yule은 수리적 간소화를 위해 도입.)
탄생한 새 종이 ‘비생존(non-viable)’ 돌연변이일 경우 즉시 사라진다고 가정 → 관측X.
- 따라서 모델 내에서는 일단 새 종이 태어나면(viable) 영구 생존(단, 이후 ‘카타클리즘적 대멸종’은 가능).
- 이로부터, “종이 죽는(=자연도태로 소멸되는) 과정은 일상적으로는 거의 없다”는 결론으로 이어짐.
  - 즉 “노말” 상태에서의 종 멸종은 무시하고, 지질학적 대멸종(카타스트로피)이 있을 때만 전체가 휩쓸린다고 생각.

2.2 종 수의 증가: 지수적(또는 기하급수적) 증가

가장 단순 버전: “속(genus)이라는 계층은 신경 쓰지 않고, 하나의 속 안에서 종이 늘어나는 과정만 본다.”
- 종이 1개 있는 속이, 확률 p·dt로 새 종을 내면 → 이제 종이 2개가 된다.
- 종이 2개 있으면, 각 종이 돌연변이할 확률 p·dt씩 → (각 종 중 하나가 돌연변이) → 종이 3개… 등등.
- 여러 개 속이 “각각” 동시에 진행한다고 치면, 각 속의 종 수 증가 양상은 평균적으로 ‘지수적’(기하급수적) 증가.
결론적으로,
[
\text{속 내 종의 평균 수}(t) \;\propto\; e^{\,\lambda t}.
]
- (\lambda)는 p와 관련된 상수(“doubling period”를 (\log(2)/\lambda)로 정의 가능).

2.3 속의 크기 분포(“1개 종만 있는 속, 2개 종 있는 속,…”)가 어떻게 되는가?

이 모델 하에서, ‘갓 태어난 속’이든 ‘오래된 속’이든, 시간이 흘러가면서
그 속 안에서 종이 (확률적) 분화하면서 크기(종 수)가 달라짐.
Yule이 핵심적으로 다룬 식(“p-series”) 중 하나가 아래와 같은 꼴을 가집니다(단일 속이 t만큼 시간 흐른 뒤):
[
f_1 = e^{-st}, \;\;
f_2 = e^{-st}\bigl(1 - e^{-st}\bigr), \;\;
f_3 = e^{-st}\bigl(1 - e^{-st}\bigr)^2, \;\dots
]
- 여기서 (s)는 “신규 종이 생길 확률”에 관련된 상수, (f_n)은 “그 속이 n종짜리일 확률”.
- 이를 “모든 속이 t=같은 시간만큼 성장했다”라고 놓으면, 분포가 기하급수열처럼 형성된다고 봄.
하지만, 실제 자연계에서는 “각 속이 태어난 시점”도 다르고, 중간에 “새 속이 생기는 돌연변이(generic mutation)”가 일어나고…
매우 복잡해짐.
- Yule은 “유도 스텝”을 통해 무한 시간 t→∞일 때, “속의 크기 분포”가 특정 ‘로그-선형’ 꼴로 귀결됨을 제시.
- 하지만, 현실에선 t가 유한하므로, 실제로는 “귀납적으로 (p-series + 보정항들)을 합산”해 모델식 제시.
결론적으로, 어느 시점에서 관측한 ‘속의 크기 분포’를 충분히 설명할 만한 (p, t) 값을 찾을 수 있음을 주장.
- p: “종-속 간 돌연변이 확률 비율” 정도.
- t: “종 분화 ‘두 배가 되기까지 걸리는 시간’으로 스케일링한 ‘경과한 수리적 시간’”.

2.4 데이터 적합(fitting) 결과

Yule은 곤충(Chrysomelid, Cerambycinae 등), 파충류(뱀, 도마뱀), 식물 등에서
실제 “속 별 종 분포” 데이터를 수집 (당시 문헌 Catalog… 등에 근거)하고,
자신의 공식(“Section III ~ IV의 식”)에 적합시켰다.
- 놀랍게도, 무척 좋은 적합도가 나타남. (예: (\chi^2) 검정 시 값이 작고, p값이 높음)
- 그래서 이 모델이 “속 내 종 분포” 형태를 꽤 정확히 포착한다고 보고.

3. “속 내 종수”와 “속의 나이”의 관계: 확률적 분포

모델상, 큰 속(예: 종 50, 100개)이 되려면 더 오래 시간이 흘러야 할 공산이 큼.
하지만, “어떤 속이 50종이 되었는데, 실제론 얼마짜리 ‘나이’인가?”를 보면,
- “평균적(기댓값)으로 나이가 높지만, 실제론 분산이 커서 꽤 젊은 속(우연히 급속 분화)일 수도 있고,
  어느 정도 더 오래된(좀 천천히 분화) 속일 수도 있다.”
- 즉, “속의 크기가 곧바로 절대적 ‘나이’를 나타내는 건 아니다. 크면 평균적으로는 확실히 오래되었다고 볼 수 있으나,
  분산도 무시 못 함.”
Yule은 이 점을 “고차원적 적분/합”을 통해 “n개 종을 가진 속이 (x년 나이일 확률분포)”를 구한다.
- 식으로는
  [
  f(\text{나이}=x\mid\text{종의 크기}=n).
  ]
- 그 결과, 속의 크기가 커질수록 평균 나이가 증가하지만(거의 로그(n) 수준으로 증가),
  분포가 넓기 때문에 실제론 상당한 편차가 있음을 수치 예시로 보인다.

4. “꽃식물(Angiosperm)” 전체 종 수 16만 종이 어떻게 1억 년 만에 생겼나? (Section VI)

꽃식물의 나이를 대략 1억 년으로 잡고(지질학적 추정),
현존 종 수가 16만이라고 할 때, 이 모델의 결과를 뒤집어 계산해 보면,
- “새 종이 생기는 비율(viable specific mutations)”, “종의 ‘doubling period’(2배 늘어나는데 걸리는 시간)” 등을
  대략 추정 가능.
Yule의 결론 요약(매우 거칠게 요약):
- 만약 멸종이 전혀 없었다 치면, 현재의 종 수(16만)에 도달하려면 15~16번 정도 종 수가 2배씩 증가했을 것.
  - 즉, 두 배마다 걸리는 시간이 약 6백만 년(6 * 10^6).
  - 따라서 지금 시점에서 “(전 세계적으로) 1년에 대략 몇 개 정도의 viable 종 돌연변이가 새로 생기는지”는
    약 수십 년에 1개 꼴 정도의 오더.
실제론 대멸종(‘cataclysmic events’) 등이 있어서 멸종도 있을 것이니,
- 종 분화율은 좀 더 높아야 현 시점에 16만 종 도달 가능 → “더 짧은 두배 기간 or 더 빠른 돌연변이 발생률.”
그래도 결국 “specific mutation”은 극히 희귀하므로, 관찰이 어려운 게 당연하다는 설명.

5. 논문의 의의와 한계

의의
- 대규모 생물 분류 데이터에서 “속(genus)별 종 분포”가, 이 확률 모형으로 매우 잘 근사됨을 보였다.
- “자연선택이 종 내부 변이를 조금씩 쌓아가며 종분화를 유도한다”는 다윈주의(당시 정설)와 달리,
  “개별 종이 ‘돌연변이적 한 방’으로 새 종을 만들고, 그게 살아남으면 빠르게 확산”한다는 개념을
  수리적·통계적 근거로 뒷받침했다.
- 실제 멸종 문제를 포함하면 모델이 더 복잡해지지만, “카타스트로프성 멸종”만 가정해도
  여전히 모델이 크게 훼손되지 않는다는 점을 시사.
한계
- “모두 같은 확률 p로 종분화가 일어난다”는 전제는 지나치게 간소화(실제로는 종마다 다를 것).
- 속·종의 “개체 수 규모” 등은 고려 못 하여, “큰 개체군일수록 mutation 기회 많음” 등을 무시.
- 지질학적으로 정확히 어느 시점에 얼마나 멸종이 있었는지, 현존 종 외에 얼마나 많은 종이 이미 사라졌는지 등
  불명확한 부분이 많아 추정치(예: 1억 년, 16만 종 등)에 따라 결과가 달라질 수 있음.

그럼에도, 논문이 보여준 지수적 증가(혹은 로그-선형 그래프)와 “속 크기 분포가 실제 관측과 잘 맞는다”는 사실은
이후의 진화생물학, 확률모형론(“Yule process”**로 불리는 계보분화 모형) 등에 커다란 영향을 주었다.

6. Yule 논문의 주요 수식·논리 정리

아래는 논문의 핵심 수학적 전개를 (상대적으로) 간단히 요약한 것입니다.

단일 속에서 종 분화(generic mutation은 무시)
- 단위 시간 dt당, 각 종이 새 종을 탄생시킬 확률 = p·dt (아주 작으면 포아송근사 등 가능).
- 확률론적 분석을 통해, “초기에 종이 1개였을 때 t시간 뒤 종이 n개일 확률”을 유도.
- 그 평균(기댓값)은 지수적으로 증가 (\propto e^{pt}).
속(genus)도 어느 시점에 새로 생성(generic mutation)될 수 있음
- 유사하게, 속이 t시간 후 (n개의 종)을 가질 확률 분포를 확장.
- 유한 시간 t에 대해서, “단일 속의 크기 분포”는 식(5) 등.
- 하지만 실제로는 시점별로 새 속이 계속 태어나서, 그 각각이 독립적으로 종을 늘려감 → 총합분포 복잡.
t→∞ 극한에서, 수학적으로 “로그-선형” 형태의 속 크기 분포가 나타남을 보임.
- 즉, “log(속의 크기) vs log(빈도)” 그래프가 거의 직선에 가까운 모양이 됨(“아래로 완만하게 굴곡”).
유한 t에서의 정식 해(“section III”):
[
f_n(t) \;=\; \text{(무한극한해)} \;+\; \text{(시간 유한성 보정항)}
]
- 이 식을 실제 관측 “속-종 분포”에 맞춰 (p, t)값을 추정 가능.
(p, t)로부터, 초기 존재하던 primordial 속의 수 N0도 추정
- “현재 관측 종 수”, “현재 관측 속 수” 등을 대입하면, 식(23)~(25) 등으로 추정값 도출.
속의 크기 = n일 때의 ‘속 나이’ 분포도 별도 계산
- 크면 평균나이가 크지만, 분산 또한 커서 상당한 겹침(overlap)이 생김.

7. 마무리: 결론 및 의의

Yule의 1924년 논문은,
1) Willis의 돌연변이설(“per saltum” 종분화)을 참이라고 가정,
2) 종·속의 “발생 확률 p, g가 상수”라는 전제를 바탕으로,
3) “종 수 증가”와 “속의 크기 분포”가 일정한 수학적 형태(거의 지수증가, 분포는 로그-선형 꼴)를 이룬다는 사실,
4) 실제 곤충·파충류·식물 데이타에 매우 잘 맞음,
5) 꽃식물 등 사례를 보면 “종이 생기는 돌연변이는 극히 희귀(수십년~수백년당 전 지구적으로 1회 꼴)” 하므로
관측이 어려울 수밖에 없다… 등의 결론을 제시했습니다.

이 이론은 이후로도 “Yule 과정(Yule process)”으로 불리며,
공동분류학(phylogenetics), 탄생-사멸 모형, 종 분화율 분석 등 여러 분야의 토대가 되었습니다.
또한 “로그-선형 그래프에서 큰 속(또는 큰 계통)이 기하급수 분포 꼬리 형태를 띠는 현상”을
“Yule 분포(Yule distribution)”로 부르기도 합니다.

오늘날 시점에서 보면, Yule의 가정(멸종은 거의 없고, 종분화 확률이 종마다 동일 등)은
물론 지나치게 단순화되었으나, 초창기에 “수리적 진화 모형”을 발전시킨 명저로 평가받고 있습니다.
이상으로 논문에 대한 주요 내용과 수식·개념 요약을 마칩니다.