1) 평균과 비율의 본질적 이해
'평균'과 '비율'은 기본적으로는 완전히 동일한 개념
WHY?
- 비율과 평균은 다른 계산방법이 존재하는 것이 아님
- 수의 형태로 표현할 수 없는 질적변수에 대해서 각 분류마다 1이나 0이라는 형태로 '해당하는 정도'라는 양적변수를 생각하여 평균을 계산하는 것
평균: 양적변수(나이, 수입, 구매금액과 같이 숫자로 표현되는 정보)
비율: 질적변수(성별, 직업, 상품 분류와 같이 문자로 표현되는 정보)
※ 1과 0같은 형태로 표현할 수 있는 변수 중 양적변수와 질적변수의 특징을 모두 가지는 변수는 이항변수
→ 동일한 개념이긴 하지만, 변수의 형태에 따라 쓰임이 차이가 나는 것!
2) 데이터가 존재하는 '구간'
3) '결과'와 '원인'의 압축
"무슨 값을 어떻게 정리해야 하는가?"
💡비즈니스에서 가치있는 분석은 '최대화하거나 최소화해야 하는 항목'이 무엇인지 알아내는 것 (=outcome을 정하고 그와 관련된 데이터를 분석)
< 설명변수의 우선순위 설정 >
: 아웃컴과 연관된 설명변수들이 많다고 생각하는 경우 우선순위를 중심으로 데이터를 분석하면 효율적
'통찰'을 위한 통계학에서는 중앙값과 최빈값에 신경쓰는 일이 거의 없다
WHY?
중앙값은 참값에서 벗어난 값(차이, 절댓값)의 총합을 최소로 만드는 신뢰할 수 있는 추측값이지만 계산의 불편함이 매우 크다
이를 해결하기 위해 고안한 방법이 최소제곱법!
1) 인과관계의 통찰 관점에서 볼때, 평균이 중앙값보다 관심이 있는 것에 대한 직접적인 대답이 되는 경우가 많다
2) 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정 방법이고 그 결과 평균값이 가장 좋은 추정값이 된다
좌우대칭인 매끄러운 곡선으로 표현되는 데이터의 불규칙성
'대다수 데이터가 정규분포를 따른다'는 사실을 넘어 어떤 데이터가 정규분포를 따르지 않는다고 해도 '데이터 값을 거듭 추가할수록' 정규분포에 수렴하게 된다는 것
1) 최댓값 & 최솟값
2) 사분위수 : 25%, 중위값, 75%
3) 분산 : 데이터의 펼쳐진 정도
4) 표준편차: 분산에 제곱근을 씌운 값
데이터의 불규칙성이 어떠하든, < 평균값-2SD ~ 평균값+2SD >까지의 범위에 반드시 전체의 4분의 3이상의 데이터가 존재한다