고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?
샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
확률 모형과 확률 변수는 무엇일까요?
누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요.
조건부 확률은 무엇일까요?
공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요.
신뢰 구간의 정의는 무엇인가요?
p-value를 모르는 사람에게 설명한다면 어떻게 설명하실 건가요?
R square의 의미는 무엇인가요?
평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
중심극한정리는 왜 유용한걸까요?
엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.
어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
“likelihood”와 “probability”의 차이는 무엇일까요?
통계에서 사용되는 bootstrap의 의미는 무엇인가요.
모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?
베이지안과 프리퀀티스트 간의 입장차이를 설명해주실 수 있나요?
검정력(statistical power)은 무엇일까요?
missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
아웃라이어의 판단하는 기준은 무엇인가요?
필요한 표본의 크기를 어떻게 계산합니까?
Bias를 통제하는 방법은 무엇입니까?
로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요.
베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포에 대해 설명해주세요. 그리고 분포 간의 연관성도 설명해주세요.
출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 “그렇습니다. 비가 내리고 있습니다”라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?