📗 빅데이터를 통찰하는 힘 : 실무활용 편
통계학의 목적 3가지
인간을 통찰하는 통계학은 구체적으로 인간 행동의 '인과 관계', '현 현상 파악', '미래 예측'을 통찰한다. 12쪽
인과 관계 : 두 사실이 원인과 결과인 관계, 분야를 가리지 않고 큰 무기가 된다.
현상 파악 : 현재 특정 제품을 사용하는 사람이 몇 명인지 정확하게 추정하는 것이다. 비즈니스 현장에서 이미 자쥬자재로 쓰는 수준
미래 예측 : 주가나 원자재 가격이 상승할지 혹은 재고가 어떻게 변할 지 같은 것을 정확히 예측하기 위해 쓰인다. 인간의 인지를 모방하려는 사고 방식
분석에 의한 인과관계를 통찰하려면
24쪽
비율과 평균은 전혀 다른 계산 방법이 존재하는 게 아니라 수의 형태로 표현할 수 없는 질적 변수에 대해서는 각 분류마다 1이나 0이라는 형태(이항변수)로 '해당하는 정도' 라는 양적변수를 생각하여 평균을 계산하는 것이다. 27쪽
데이터가 존재하는 구간이 중요하다.
통계학은 데이터는 대체로 어디에서 어디까지의 범위에 속해있는가 하는 식의 구간을 파악하는 방법을 고안했다 28쪽
결과와 원인을 압출하라.
최종적으로 조절하고 싶은 결과와 영향을 미칠 수 있는 원인 제공의 대상자후보군)안에서 데이터 분석을 해야한다. 아웃컴(최종적으로 조절하고 싶은 결과)
비즈니스에서도 가치 있는 데이터 분석은 최대화하거나 최소화해야 하는 항목
이 무엇인지 알아내는 것이다. ... 다만 아웃컴의 선택이 적절했을 지라도 매출의 평균이나 총액만 보고 있으면 어떻게 해야 돈벌이가 되는지
알 수 없다.
아웃컴을 좌우하는 '원인 제공의 대상자'라 할 수 있는 설명 변수가 중요한 의미를 갖는다. 32쪽
통찰을 위한 통계학에서는 중앙값과 최빈수에 신경 쓰는 일이 거의 없다
중앙값, 최빈값보다 평균값을 언제 사용해야 할까?
인과 관계의 통찰이라는 관점에서 볼 때 평균값이 중앙값보다 관심 있는 것에 직접적인 대답이 되는 경우가 많다. 어떤 결과를 나타내는 값의 총량을 최대화하거나 최소화하는 쪽으로 관심이 쏠리기 마련인데, 뭔가 요인을 바꾸면 결과 값의 총량이 어떻게 변하는가 하는 부분에 중앙값은 속시원한 대답을 주지 않는다.
가우스 정규 분포로 데이터 불규칙성이 정규 분포를 따르고 있으면 최소 제곱법이 가장 좋은 추정 방법이고, 그 결과 평균값이 가장 좋은 추정값이 된다.51쪽
참값에서 벗어나는 방식이 한 가지 원인에 의해 일어나지 않고 복수의 자잘한 차이의 합계에 의해 생겼다면 그 역시 정규분포를 따른다는 사실도 마르코프나 리아프노프 등에 의해 증명되었다. 그래서 데이터 자체의 불규칙성을 파악하고자 하는 것이 아니라 데이터 배후의 참값에 흥미가 있다면 평균값 사용이 좋다 62쪽
원시 데이터의 불규칙성과 그것의 평균값
과 원시 데이터의 불규칙성과는 상관없는, 평균값 자체의 불규칙성
의 구별은 현대 통계학에서 매우 중요하다. 한 번에 이해하기 어렵지만 중요한 부분인 것 같다. 63쪽분산 : 사 분위점 부근에 데이터가 존재한다는 정보를 나타내는 값
표준편차로 데이터의 대략적 범위를 알 수 있다
벗어난 값의 제곱합
대신 벗어난 값의 제곱 평균
을 사용하여 데이터에 내포된 불규칙성을 표현하면 된다. 표준편차는 분산을 감각적으로 알기 쉽게 표현한 것이다.
전체 수-1
을 한다.평균값과 표준편차를 '통찰'에 사용하기 ➡️ 신뢰구간