
상관관계가 있다고 해서 인과관계가 있는건 아니다.
🔥가장 중요한 2가지🔥
1) AB테스트
2) X에 영향을 주는건 무엇일까?(인과관계, 무엇이 무엇에게 영향을 얼만큼 주고 있는가?)
통계 : 통할 통, 셀 계
수많은 데이터를 일관된 기준이나 하나의 체계로 모아 전체적인 흐름이나 규모를 파악하는 행위

중심경향치 : 평균, 중앙값, 최빈값



표본을 바탕으로 전체 모집단을 추정하거나 어떤 주장이 맞는지 검정하는 통계
확률 : 발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현한 것
확률변수가 가질수 있는 값과 그에 대한 발생 확률간의 관계를 정리한것

p(x,y) = p(x)*p(y)조건부 확률 공식
P(A|B) = P(A ∩ B) / P(B)
표본의 평균과 변동성을 이용해 모집단의 특성을 추정하고 관찰된 차이가 우연인지 판단하는 과정
모집단의 평균, 비율등을 알수 없기에 '표본'을 통해 추정
하나의 값만이 아니라 범위로 말하는것이 더 정확(=신뢰구간)
어떤 주장이 우연인지 아니면 통계적으로 의미있는지를 검정하는 과정
중앙에 값이 몰리고 양 끝으로 갈수록 희박해지는 자연스러운 현상분포
평균 = 중앙값 (대칭구조)

가설검정에서 p-value를 해석할수 있는 전제가 된다.
현실의 데이터가 항상 정규는 아니지만, 모집단을 정규분포라고 가정하면 여러 통계 기법(신뢰구간,가설 검정) 등을 사용할수 있음.
표본 데이터가 정규분포가 아닌데도 모집단을 정규분포라고 가정할수 있는가?
예시) 시험점수 90점과 키 182cm 서로 다른 기준이라 비교하기 어려움, 표준화를 하면 같은 단위(z)로 변환됨 -> 표준화
이제 두 값을 상대적인 위치 기준으로 직접 비교할수 있음.
평균0, 표준편차1인 정규분포