🎲 확률(Probability)
정의
- 어떤 일(사건)이 일어날 가능성을 0~1 사이의 숫자로 표현한 것
- 0: 절대 불가능
- 1: 절대 가능
- 0~1 사이: 1에 가까울수록 가능성이 높음
예시
- [일상] 내일의 강수 확률 50%
- [일상] 회식 중 연예인을 만날 확률 0.01%
- [일상] 로또 당첨 확률 0.00000012%
- [업무] 유튜브 사용자가 우리 광고를 클릭할 확률
- [업무] 상반기 매출액이 1억 원을 넘을 확률
- [업무] 음식 주문시 고객이 세트 메뉴를 시킬 확률
불확실한 미래 속에서 확률은 더 나은 결정을 하도록 도와줌
📌 용어
결과(sample point)
정의
- 어떠한 실험을 했을 때, 실제로 일어난 단 하나의 경우
예시
- 쿠키통에서 쿠키 빼기
- 축구에서 슛팅하기
- 주사위 던지기
사건(event)
정의
- 여러 결과들을 묶은 집합(보통 조건이 주어지는 경우 많음)**
예시
- 쿠키통에서 쿠키 빼기
- 결과: 딸기맛 쿠키 하나를 뽑음
- 사건:
- 빨간색 쿠키가 나오는 사건: {딸기맛, 체리맛, 자두맛}
- 어두운색 쿠키가 나오는 사건: {초코맛, 검은콩맛}
- 축구에서 슛팅하기
- 결과: 슛을 찼더니 골이 들어감
- 사건: 3번 슛을 찼더니 2번 골이 들어가는 사건
- 사건을 이루는 결과들의 모음: {[골, 골, 노골], [골, 노골, 골], [노골, 골, 골]}
- 주사위 던지기
- 결과: 주사위를 굴렸더니 4가 나옴
- 사건:
- 짝수가 나오는 사건: {2, 4, 6}
- 2보다 큰 수가 나오는 사건: {3, 4, 5 ,6}
표본공간(sample space)
정의
- 어떠한 실험을 했을 때, 일어날 수 있는 모든 결과들의 집합(파이썬: 결과.unique())
특징
- 기호로 대문자 S 또는 Ω(오메가)로 표기
- 표본공간 값은 대괄호로 묶어서 표현
- 사건은 표본공간의 부분집합
- 표본공간 = 우리가 분석하려는 전체 대상
- 표본공간 정의에 따라 분석 결과가 달라짐 → 분석의 첫 단추로 매우 중요!
- 예: 전체 고객의 이탈률을 확인하려고 할 때, 표본공간을 “미구매 고객만”으로 한정하면 이탈률이 실제보다 과도하게 높게 계산될 수 있음
예시
- 쿠키통에서 쿠키 빼기(쿠키통에는 바닐라, 초코, 딸기, 체리맛 쿠기가 들어있음)
- 표본공간: {바닐라맛, 초코맛, 딸기맛, 체리맛}
- 축구에서 슛팅하기
- 축구에서 슛팅 2번 하기
- 표본공간: {골x골, 골x노골, 노골x골, 노골x노골}
- 주사위 굴리기
💡 분석가는 표본공간을 정의하고, 그 안에서 실제로 발생한 사건을 관측함
실무 예시
-
구매 데이터
- 표본공간(S): 모든 구매 기록
- 결과: 특정 고객의 특정 구매 1건(예: 고객 A가 티셔츠 구매)
- 사건: 티셔츠 구매 → {A가 티셔츠 구매, B가 티셔츠 구매, ...}
-
이탈 분석
- 표본공간(S): 전체 고객
- 결과: 개별 고객 한 명(예: 고객 ID = 12345)
- 사건: 최근 6개월 동안 미구매 고객 → {고객 A, 고객 C, ...}
📌 P(A)
정의
- P(A): 어떠한 사건 A가 일어날 확률(Probability)
계산
- P(A) = 사건 A에 속하는 경우의 수 / 전체 경우의 수
예시
-
주사위 굴리기
- 표본공간(S): {1, 2, 3, 4, 5, 6} = 6
- 사건 A(짝수가 나옴): {2, 4, 6} = 3
- P(A) = 사건 A ÷ 표본공간(S) = 3 ÷ 6 = 0.5, 50%
→ 무작위로 주사위를 굴렸을 때, 짝수가 나올 확률은 50%
-
데이터 분석
- S: 전체 고객 = 1,000명
- A(최근 1개월 내 구매한 고객) = 200명
- P(A) = 200 ÷ 1000 = 0.2, 20%
→ 전체 고객 중 무작위로 1명을 뽑았을 때, 최근 1개월 내 구매했을 확률은 20%
💡 이러한 확률 데이터를 활용해 타겟팅 전략을 설계할 수 있음