기초통계 스터디 1주차 1-1

장세훈·2023년 2월 7일
0

기초통계

목록 보기
2/3

기간: 02월 08일 까지
범위: 세상에서 가장 쉬운 통계학입문 ~131P (1부)까지


개인 정리

통계는 기술통계랑 추리통계로 나뉘어진다.

통계: 관측된 데이터의 집합 '과거에 일어난 것에 대한 기술'
확률: 미래에 일어날 것에 관한 기술

분포란?

  • 분포는 데이터가 다양한 수치로 나타나는 것을 말한다.
  • 분포가 생기는 이유는 그 수치들이 결정된 이면에 어떤 '불확실성'이 움직이고 있기 때문이다.

이러한 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법이 통계이다.

방법 1. 축약

데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리해서 의미있는 정보만을 추출

축약에는 그래프통계량이 존재한다.

  1. 그래프 (히스토그램)
    히스토그램을 그리기 위해서는 도수분포표를 만들어야 한다.
    도수분포표는 아래와 같이 되어있다.

    여기서 아들 수는 계급, 계급에 해당하는 가구의 수를 도수, 전체 도수 중 해당 계급 도수의 비율을 상대도수, 계급을 대표하는 계급 값이 존재한다.
    이러한 도수분포표를 통해 세부적인 수치를 잃었지만, 특정 계급에 데이터 수가 높다는 특징을 알 수 있게 되었다. 이러한 도수분포표를 시각적으로 보기 위해 히스토그램을 그리게 된다.
  2. 통계량 (평균값)
    그래프는 설명하는데 종이의 많은 부분을 차지하기에 이를 더 축약하여 하나의 숫자로 요약하는 방법이 있는데 그 중 하나가 평균 값이다. (그 외에도 분산, 표준편차가 있다)

    평균 값의 특징
    1. 데이터들은 평균 값 주변에 분포되어있다.
    2. 많이 나타나는 데이터는 평균 값에 영향을 준다.
    3. 히스토그램의 좌우 대칭축은 평균 값이다.

평균값에 대하여

  1. 산술평균
    x+y2\frac{x+y}{2} 일반적으로 알고 있는 평균 구하는 방법
    덧셈의 의미로 본질을 유지하고자 한다면 사용한다.

  2. 기하평균
    xy\sqrt{xy} 성장률 등 곱셈의 의미로 본질을 유지하고자 한다면 사용한다.

  3. 제곱평균
    x2+y22\sqrt{\frac{x^2+y^2}{2}} 표준편차를 구할 때 사용한다고 한다.

  4. 조화평균
    21x+1y\frac{2}{\frac{1}{x} + \frac{1}{y}} 속도를 다룰 때 사용한다고 한다.

분산과 표준편차

데이터가 평균값으로부터 어느정도 퍼져있는지 알 수 없다.
이를 알기 위해서 분산과 표준편차를 구한다!
** 이때 산술평균으로 구하지 않는 이유는 +,-가 상쇄되기 때문이다.

분산
x2+y22\frac{x^2 + y^2}{2} 분산의 단점은 수치가 너무 커지게 되고, 단위가 제곱단위로 변하기에 루트를 씌워준다.

표준편차
x2+y22\sqrt{\frac{x^2 + y^2}{2}}

표준편차는 데이터의 불규칙성, 확실하지 않는 상태를 측정하기 위해서 사용된다.

데이터를 평가하기 위해 표준편차를 사용한다.

(data평균값)표준편차\frac{(data - 평균값)}{표준편차} 의 식을 통해 data를 평가한다.

데이터에 일정한 수를 더해주면 평균값은 더해준 만큼 증가하고,
분산과 표준편차는 동일하다

데이터에 일정한 수를 곱해주면 평균값은 곱해준 만큼(KK) 증가하고,
분산은 제곱(K2K^2)만큼 증가하고, 표준편차는 곱해준 만큼(KK)증가한다

위에서 data를 평가하는 식으로 데이터를 가공해주면
평균값은 0이되고 표준편차는 1이 된다.

profile
더 나은 내일을 위해

0개의 댓글