Suppose 0.1% of the American population currently has lung cancer, that 90% of all lung cancer cases are smokers, and that 21% of those without lung cancer also smoke. (These values are fairly close to the values given on the American Lung Association web site as of 2011.) Consider the following questions.
What percent of smokers have lung cancer?
What percent of non-smokers have lung cancer?
How much more likely is a smoker to have lung cancer than a non-smoker?
> LC <- (0.1/100)
> LC
[1] 0.001
여기서 notLC는 Lung Cancer에 걸리지 않았다는 의미 이며 확률식은 다음과 같습니다.
또는
R 코드는 다음과 같습니다.
> notLC <- 1 - LC
> notLC
[1] 0.999
위의 정보는 폐암 환자 중 흡연자의 비율이 임을 알려 줍니다. 바꿔 말하면 폐암이 주어 졌을 때 흡연자의 비율입니다. 즉, 이 것은 조건부 확률입니다. 여기서 Smokers_Given_LC에 대한 확률식은 다음과 같습니다.
R 코드는 다음과 같습니다.
> Smokers_Given_LC <- 90/100
> Smokers_Given_LC
[1] 0.9
또는
> Nonsmokers_Given_LC <- 1 - Smokers_Given_LC
> Nonsmokers_Given_LC
[1] 0.1
위의 정보는 폐암 환자가 아닌 흡연자의 비율이 임을 의미 합니다. 바꿔 말하면 폐암이 아니다 라는 정보가 주어 졌을 때의 흡연자의 비율입니다. 즉, 이 것은 조건부 확률입니다. 여기서 Smokers_Given_notLC에 대한 확률식은 다음과 같습니다.
또는
R 코드는 다음과 같습니다.
> Smokers_Given_notLC <- 21/100
> Smokers_Given_notLC
[1] 0.21
여기서 Nonsmokers_Given_notLC의 확률식은 다음과 같습니다.
또는
R 코드는 다음과 같습니다.
> Nonsmokers_Given_notLC <- 1 - Smokers_Given_notLC
> Nonsmokers_Given_notLC
[1] 0.79
흡연자에 대한 전체 확률 법칙은 다음과 같습니다.
R 코드는 다음과 같습니다.
> Smokers <- (LC * Smokers_Given_LC) + (notLC * Smokers_Given_notLC)
> Smokers
[1] 0.21069
비흡연자에 대한 전체 확률 법칙은 다음과 같습니다.
R 코드는 다음과 같습니다.
> Nonsmokers <- (LC * Nonsmokers_Given_LC) + (notLC * Nonsmokers_Given_notLC)
> Nonsmokers
[1] 0.78931
흡연자 중에 폐암에 걸린 사람은 몇 퍼센트 입니까? 이 문제에 대한 답변은 P(LC|Smokers)를 이용해서 계산 할 수 있습니다. P(LC|Smokers)에 대한 베이즈 정리 확률식은 다음과 같습니다.
R 코드는 다음과 같습니다.
> LC_Given_Smokers <- ((LC * Smokers_Given_LC) / Smokers)*100
> LC_Given_Smokers
[1] 0.4271679
비흡연자 중에 폐암에 걸린 사람은 몇 퍼센트 입니까? 이 문제에 대한 답변은 P(LC|Non-smokers)를 이용해서 계산 할 수 있습니다. P(LC|Non-smokers)에 대한 베이즈 정리 확률식은 다음과 같습니다.
R 코드는 다음과 같습니다.
> LC_Given_Nonsmokers <- ((LC * Nonsmokers_Given_LC) / Nonsmokers)*100
> LC_Given_Nonsmokers
[1] 0.01266929
> LC_Given_Smokers / LC_Given_Nonsmokers
[1] 33.71679
LC_Given_Smokers <- ((LC * Smokers_Given_LC) / Smokers)*100
LC_Given_Smokers
[1] 0.4271679
LC_Given_Smokers * 100
[1] 42.71679
에서 이미 100을 곱했는데 왜 또 100을 곱하나요?
오타를 하나 찾은 것 같아서요, '위의 정보를 바탕으로 폐암에 걸리지 않은 미국인의 비율이 0.1% 임을 알 수 있습니다.' 이 문장에서 '걸리지 않은' 이 아니고, '걸린' 이 맞는 것 같아서요.