CH00_통계학이란, CH01_기술통계학

phillip oh·2020년 3월 31일
0

통계학도감

목록 보기
1/4
post-thumbnail

CH00_통계학이란


0.1 통계학이란

  • 통계학이란 데이터를 통계량이나 그림 및 표로 정리하여 그 특징을 파악하는 학문.
  • 통계학의 종류
    1. 기술통계학 : 평균, 분산 등
    2. 추측통계학 : 불편추정, 신뢰구간의 추정, 가설검정, 다변량 분석 등
      1. 빈도론적 통계학
      2. 베이즈 통계학

0.2 통계학으로 할 수 있는 것

  1. 기술통계학
    • 데이터의 특징과 경향을 파악.
    • 상관관계 분석.
  2. 추측통계학
    • 표본집단을 이용하여 모집단의 특성을 추측.
    • 불편추정, 신뢰구간 추정, 가설검정이 주요 내용임.
    1. 보험사고 발생 횟수의 예측.
    2. TV시청률, 신약의 유효성 확인, 사료첨가제의 결정, 맛 관능시험 분석
  3. 실험계획법
    • 실험을 성공시키기 위한 방법
    1. 실험 순서와 배치
    2. 제품의 품질관리
    3. 피험자 수의 결정
  4. 중회귀분석/다변량 분석
    • 많은 변수를 한번에 처리하는 방법을 통틀어 이르는 말
    1. 중고차 매입 평가
    2. 검사결과로 질환 진단
  5. 베이즈 통계학
    • 지식과 경험, 새로운 데이터를 유연하게 통합할 수 있음.
    1. 스팸 메일 분석
    2. 기계번역
    3. 영상해석

01_기술통계학


1.1 여러 가지 평균

  • 평균은 데이터의 중심적인 값을 나타낸다.
  1. 산술평균(Arithmetic Mean)
    • 데이터의 총합을 데이터의 개수로 나눈 것.
    • 평균에서 벗어난 값의 영향을 강하게 받는다.
  2. 절사평균(Trimmed Mean)
    • 이상치들(Outliers)을 제거하고 산술평균을 구한 것이다.
    • 예를 들어, 상위 10%와 하위 10%를 제거하고 나머지 80%만으로 평균을 구한 것.
    • TV 오디션 프로그램이나 스포츠 경기 심사에도 종종 쓰이는 방식이다.
  3. 가중평균(Weighted Mean)
    • 단순한 산술평균은 현실을 왜곡할 수 있다.
    • 따라서, 관측값의 비중이 다를 땐 그 비중을 가중치로 반영하는 가중평균을 써야 한다.
    • 대학생의 학점이 좋은 예이다. 2학점, 3학점짜리 강의를 여러 개 들었다면, 받은 학점의 산술평균이 아닌, 가중평균을 구한다.
  4. 기하평균(Geometric Mean)
    • 참고) CAGR
    • 기하평균을 쓰는 이유 : 우리가 쓰는 척도들이 단순 덧셈으로만 이루어져 있지 않고, 곱셈으로 이루어진 것들이 있기 때문.
    • 이자율, 인구성장률, 경제성장률, 수익률과 같은 지표들은 곱셈으로 계산되었다. 따라서 이 지표들의 평균을 구할 땐 기하평균이 더 적합하다.
    • 즉, 덧셈으로 계산된 지표는 산숦평균, 곱셈으로 계산된 지표는 기하평균이 적합하다.
    • 예를 들어, 최근 3년간 투자를 해서 10%, 50%, 30%를 벌었다면, 최근 3년간의 평균 수익률은 기하평균으로 계산하면 0.29이지만, 산술평균으로 계산하면 0.3으로 현실을 과대평가한다.
  5. 조화평균(Harmonic Mean)
    • 일정한 거리를 이동할 때, 평균속도를 구하는 데 이용함.
    • 조화평균은 동일한 거리 혹은 동일한 금액이라는 조건에서 비중(속도나 가격)이 다른 여러 가지 요소를 결합하는 경우에 있어 평균을 도출하는데 사용된다.
    • 만약 동일한 거리 혹은 동일한 금액이라는 조건이 충족되지 않으면 위의 공식을 바로 사용할 수 없다. 가중치를 주어야 하기 때문
  6. 이동평균(Moving Average)
    • 주식과 같은 금융데이터들의 평균을 구할 때 쓰이는 방법.
      6.1 단순이동평균(Simple Moving Average, SMA) : 이동하며 평균을 구하는 방식.
      6.2 지수이동평균(Exponential Moving Average, EMA) : 단기변동성을 포착하기 위해 최근 값들에 가중치를 주는 방식.
    • 반영되는 기간이 길수록 SMA와 EMA의 차이는 적어진다.

1.2 데이터의 분산

  • 평균만으론 데이터가 흩어진 정도를 알 수 없기 때문에 최대값, 최소값, 분위수, 분산 등의 지표를 사용한다.
  1. 분위수 : n개의 데이터를 작은 수에서부터 큰 수의 순으로 늘어놓고, k등분했을 때 그 경계가 된 수치
  2. 편차 : 개별 데이터의 값과 평균의 차를 말한다.
  3. 분산 : 편차는 개별 데이터에 의해 계산되지만, 분산을 그것을 하나의 지표로 만든 것.
  4. 이상치 : 데이터의 평균에서 멀리 떨어져 있는 값.

1.3 데이터의 분산

  • 변동계수 : 두 개의 데이터가 흩어진 정도를 비교하는 경우에 사용한다.
    • 변동계수 = 표춘편차 / 평균

1.4 변수의 관련성

  • 상관계수 : '한쪽이 증가하면, 다른 쪽도 증가한다', '한쪽이 증가하면, 다른 쪽은 감소한다'와 같은 직선적인 관계를 '상관'이라고 한다.
    • 피어슨의 적률상관계수 : 상관의 정도를 나타내는 지표로 -1 ~ 1의 값을 갖는다.

1.5 변수의 관련성

  • 순위상관 : 순위 데이터밖에 사용할 수 없는 경우나 두 변수 간에 곡선적인 관계가 상정되는 경우(산포도가 곡선)는 순위상관계수를 사용한다.
    • 스피어만의 순위상관계수 : 순위 데이터에 대해 계산한 피어슨의 확률상관계수
    • 켄달의 순위상관계수 : x에 대한 순위와 y에 대한 순위가 일치하는지의 여부에 주목해서 상관의 정도를 측정하는 지표
profile
모빌리티 스타트업에서 데이터를 다루고 있습니다.

0개의 댓글