[10주차] 통계_01

심하림·2023년 7월 6일

통계

목록 보기
1/4

📌 기초통계

  • 강의목적
  1. 기본 개념과 이론에 대한 이해
  2. 태블로, EDA, 머신러닝 수업 등에 대한 기초 마련
  3. 데이터 분석 업무를 하기 위한 기초 통계에 대한 이해

📍 통계학(statistics)

산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(넓은 의미의 국가학)"과 영국의 "정치산술(정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률이론"과 결합하여, 수립한 학문에서 발전되었다.

  • 기술 통계학(descriptive statistics)

    데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
  • 추론 통계학(inferential statistics)

    모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론


📍 데이터와 그래프

🔖 변수(Variable) : 변하는 숫자

  • 수학에서 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용되 '기호'이다.
  • 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 한다. 해당 변수 에 대하여 관측된 값들이 바로 자료(Data)가 된다

🔖 질적 자료

  • 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
  • 데이터 입력시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음(순서형 변수: 교육수준, 건강상태)

🔖 양적 자료

  • 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
  • 숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음

🔖 EDA (Exploratory Data Anlysis)

  • 데이터를 분삭하는 과정중 가장 많이 사용하는 분석방법
  • 데이터를 탐색하는 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임

[ 목적 ]
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

🔖 데이터 시각화 (Data visualization)

  • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다.
  • 시간시각화, 분포시각화, 관계시각화, 비교시각화, 공간시각화


시각화 tool = BI tool
(EXEL | Tableau | Qlick | TIBCOsoftware)

오픈소스 시각화 tool
(PYTHON | R | Zeppelin)


📍 데이터의 기초 통계량

🔖 기초통계량

  • 통계량(statistic) : 표본으로 산출한 값, 기술통계량이라고도 표현함
  • 통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음

🔖 중심 경향치

  • 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함
  • 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균등이 있음

- 평균

  • 표본평균 : 표본으로 추출된 표본 평균(sample mean, x\overline {x}로 표기)
  • 모평균 : 모집단의 평균 (η\eta라고 표기)

평균은 모집단으로 부터 관측된 nn개의 xx가 주어졌을때 아래와 같이 정의됨

- 중앙값(median)

  • 평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
  • 관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두개의 값을 산술 편균한 값임
  • 이상치가 포함된 데이터에 대해서 사용함

- 최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값
  • 옷사이즈와 같이 명목형 데이터의 경우 사용

🔖 산포도

  • 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

- 범위(Range)

  • 데이터의 최대값과 최소값의 차이를 의미함

- 사분위수(quartile)

  • 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두번째를 제2사분위수(Q2), 세번째를 제3분위수(Q3)이라고 함

사분위수 범위(interquartile range : IQR) = 제3사분위수(Q3)-제1사분위수(Q1)

- 백분위수(percentile)

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료 값을 말한
  • 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음
    1) np가 정수이면, np번째와 (np + 1)번째 자료의 평균
    2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

- 분산(variance)

  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도

- 표준편차(standard deviation)

  • 분산의 제곱근으로 정의

- 변동계수(Coefficient of Variation : CV)

  • 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함
  • 변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함

🔖 왜도(skew)

  • 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
  • 왜도가 0이면 좌우 대칭
    왜도가 0에서 클수록 우측꼬리가 김,
    왜도가 0에서 작을수록 좌측꼬리가 김

🔖 첨도(kurtosis)

  • 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
  • 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
    첨도값(K) < 3 정규분포보다 꼬리가 얇은분포
    첨도값(K) > 3 정규분포보다 꼬리가 두꺼운분포

📍 확률 이론

🔖 확률(probability)

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율

🔖 표본 공간(Sample Space)

  • 실험에서 나올 수 있는 모든 가능한 결과들의 집합(모든 경우의수)
  • 동전 던지기의 경우 S = {앞면, 뒷면} , 주사위던지기 S ={1,2,3,4,5,6}
  • 사건 A가 일어날 확률
  • 예제 : 동전 두개를 던져서 뒷면이 한번만 나오는 확률은?

🔖 확률의 성질

  • 확률의 덧셈법칙 : P(AB)=P(A)+P(B)(AB)P(A \cup B)=P(A) + P(B) - (A \cap B)
  • A와 B가 배반 사건이면, P(AB)=P()=0P(A \cap B) = P(\oint) = 0
  • A의 여사건이 AcA^c이면, P(A)+P(Ac)=1P(A) + P(A^c) = 1
  • 예제 : 1부터 13까지의 13장의 카드에서 한장을 뽑는 실험에서 아래의 사건을 생각해보자 ( A = 짝수를 뽑을 확률, B = 5이하의 카드를 뽑을 확률)
    (a) 표본공간을 정의하고 각 사건의 확률을 구하라
    (b) A와 B의 곱사건과 합사건을 구하라

🔖 조합과 순열

  • !! (Factorial) : nn개를 일렬로 늘여 놓은 경우의 수를 n!n! 로 표현
  • 순열 (Permutation) : 순서를 고려하여 nn개 중 rr개를 뽑아서 배열하는 경우의 수
  • 조합(Combination) : 순서를 고려하지 않고 nn개중 rr개를 뽑아서 배열하는 경우의 수
  • 예제 : 로또 1등의 확률과 2등의 확률을 구하시오

🔖 조건부 확률(conditional probability)

  • 어떤사건 A가 발생한 상황에서(주어졌을 떄) 또 하나의 사건 B가 발생할 확률

확률의 곱셈법칙

베이즈 정리(Bayes' Theorem)

  • 표본 공간 SS에서 서로 배반인 사건 B1,B2,...,BkB_{1}, B_{2}, ..., B_{k}에 의하여 분할되어 있을때, 임의의 사건 A에 대하여 다음이 성립
  • 예제 : 자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
    a) 임의의한고객을선택했을때,그고객이1년이내에사고를낼확률을구하시오
    b) 어떤 고객이 1년내 사고를 낸 고객이라면, 그 고객이 A등급일 확률을 구하시오

🔖 확률 변수

  • 표본공간에서 각 사건에 실수를 대응시키는 함수
  • 확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
  • 일반적으로 확률 변수는 대문자로표현, 확률변수의 특정값을 소문자로 표현
    • 확률 변수 : 대문자로 표현(X, Y ...)
    • 확률 변수의 특정값 : 소문자로 표현(x, y ...)

이산 확률 변수(discrete random variable)

  • 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우

연속 확률 변수(continuous random variable)

  • 연속형 또는 무한대와 같이 셀 수 없는 경우

확률 변수의 평균 (기대값)

  • 예시 : 주사위를 던졌을때의 기대값

확률 변수의 분산

기대값의 성질

  • a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립

분산의 성질

  • a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립

공분산

  • 2개의 확률변수의 선형 관계를 나타내는 값

  • 하나의 값으로 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐

  • 예제
    a) E(X)=3E(X)=3일때E(2X+1)E(2X+1)을구하시오
    b) 확률 변수 XX의 평균이 55이고 분산이 1010일 때, 확률변수 X2X^2이 평균을 구하시오

  • 예제
    복권 당첨 확률이 표와 같고, 확률변수 XX가 복권의 당첨 상금일때 당첨금 XX의기대값을 구하시오

0개의 댓글