통계 | #2 평균이 통계학에서 갖는 의미

소리·2024년 4월 23일
0

분석하는 힘

목록 보기
2/11

📗 빅데이터를 통찰하는 힘 : 실무활용 편

  • 1장 : 통계학의 실천은 기본부터

통계학의 목적 3가지

인간을 통찰하는 통계학은 구체적으로 인간 행동의 '인과 관계', '현 현상 파악', '미래 예측'을 통찰한다. 12쪽

  1. 인과 관계 : 두 사실이 원인과 결과인 관계, 분야를 가리지 않고 큰 무기가 된다.

  2. 현상 파악 : 현재 특정 제품을 사용하는 사람이 몇 명인지 정확하게 추정하는 것이다. 비즈니스 현장에서 이미 자쥬자재로 쓰는 수준

  3. 미래 예측 : 주가나 원자재 가격이 상승할지 혹은 재고가 어떻게 변할 지 같은 것을 정확히 예측하기 위해 쓰인다. 인간의 인지를 모방하려는 사고 방식


분석에 의한 인과관계를 통찰하려면

24쪽

  1. 평균과 비율 등 통계 지표의 본질적인 의미를 이해
  2. 데이터를 점이 아닌 구간으로 이해
  3. 무슨 값을 어떻게 정리해야 하는지를 아는 이해

  1. 평균과 비율은 기본적으로는 완전히 동일한 개념이다.
    -평균 : 숫자(양적변수)로 표현되는 정보
    -비율 : 문자(질적변수)로 표현되는 정보

비율과 평균은 전혀 다른 계산 방법이 존재하는 게 아니라 수의 형태로 표현할 수 없는 질적 변수에 대해서는 각 분류마다 1이나 0이라는 형태(이항변수)로 '해당하는 정도' 라는 양적변수를 생각하여 평균을 계산하는 것이다. 27쪽

  1. 데이터가 존재하는 구간이 중요하다.
    통계학은 데이터는 대체로 어디에서 어디까지의 범위에 속해있는가 하는 식의 구간을 파악하는 방법을 고안했다 28쪽

  2. 결과와 원인을 압출하라.
    최종적으로 조절하고 싶은 결과와 영향을 미칠 수 있는 원인 제공의 대상자후보군)안에서 데이터 분석을 해야한다. 아웃컴(최종적으로 조절하고 싶은 결과)

비즈니스에서도 가치 있는 데이터 분석은 최대화하거나 최소화해야 하는 항목 이 무엇인지 알아내는 것이다. ... 다만 아웃컴의 선택이 적절했을 지라도 매출의 평균이나 총액만 보고 있으면 어떻게 해야 돈벌이가 되는지 알 수 없다.
아웃컴을 좌우하는 '원인 제공의 대상자'라 할 수 있는 설명 변수가 중요한 의미를 갖는다. 32쪽


통찰을 위한 통계학에서는 중앙값과 최빈수에 신경 쓰는 일이 거의 없다

  • ❓최소제곱법에 기초하여 불규칙성이 내포된 데이터에서 참값을 추정하려면 어떤 방법이 가장 좋은가? 그 대답은 평균을 사용하는 것이 추정 방법으로 적절하다 45쪽
  • 평균은 최소제곱법에 기초하여 측정값에 포함되어 있는 차이를 가장 적게 만드는 뛰어난 추정값이다.

중앙값, 최빈값보다 평균값을 언제 사용해야 할까?

  • 인과 관계의 통찰이라는 관점에서 볼 때 평균값이 중앙값보다 관심 있는 것에 직접적인 대답이 되는 경우가 많다. 어떤 결과를 나타내는 값의 총량을 최대화하거나 최소화하는 쪽으로 관심이 쏠리기 마련인데, 뭔가 요인을 바꾸면 결과 값의 총량이 어떻게 변하는가 하는 부분에 중앙값은 속시원한 대답을 주지 않는다.

  • 가우스 정규 분포로 데이터 불규칙성이 정규 분포를 따르고 있으면 최소 제곱법이 가장 좋은 추정 방법이고, 그 결과 평균값이 가장 좋은 추정값이 된다.51쪽

  • 참값에서 벗어나는 방식이 한 가지 원인에 의해 일어나지 않고 복수의 자잘한 차이의 합계에 의해 생겼다면 그 역시 정규분포를 따른다는 사실도 마르코프나 리아프노프 등에 의해 증명되었다. 그래서 데이터 자체의 불규칙성을 파악하고자 하는 것이 아니라 데이터 배후의 참값에 흥미가 있다면 평균값 사용이 좋다 62쪽


👩 파이썬에서 전처리를 할 때 이상치가 심할 때 평균값보다는 중앙값이 낫다고 해서 어느 정도 중앙값이 나은가? 무의식적인 선입견이 있었는데, 통찰을 위한 분석에서는 평균값을 사용하는 게 파악하는 데 더 좋다는 것을 알게 되었다. 목적을 명확하게 하고 어떤 상황인지를 잘 파악해 시기 적절하게 사용하는 게 중요하겠다!!



  • 현상 파악의 관점이라면 좌우 비태칭인 불규칙성 데이터의 대략적인 모습을 파악하기 위해서 평균값보다 중앙값을 사용하는 것이 나을 수 도 있다
  • 인과관계 통찰이라면 평균값은 각 그룹의 예를 들어 매출이 다른 쪽보다 높아지는지 낮아지는지 판단할 수 있기만 하면 그만이다.
  • 원시 데이터의 불규칙성과는 상관없이 거기서 수백가지 데이터를 뽑아 계산하고 그렇게 얻어진 평균값은 중심극한정리에 기초하여 정규분포에 수렴한다.
  • 이와 같이 원시 데이터의 불규칙성과 그것의 평균값원시 데이터의 불규칙성과는 상관없는, 평균값 자체의 불규칙성의 구별은 현대 통계학에서 매우 중요하다. 한 번에 이해하기 어렵지만 중요한 부분인 것 같다. 63쪽

분산 : 사 분위점 부근에 데이터가 존재한다는 정보를 나타내는 값

표준편차로 데이터의 대략적 범위를 알 수 있다

벗어난 값의 제곱합 대신 벗어난 값의 제곱 평균을 사용하여 데이터에 내포된 불규칙성을 표현하면 된다. 표준편차는 분산을 감각적으로 알기 쉽게 표현한 것이다.

  • 불편성 : 편중을 보정하는 성질로 전체 수-1을 한다.

평균값과 표준편차를 '통찰'에 사용하기 ➡️ 신뢰구간

profile
데이터로 경로를 탐색합니다.

0개의 댓글