[10주차] 통계_01

심하림·2023년 7월 6일

목록 보기

1/4

📌 기초통계

강의목적

기본 개념과 이론에 대한 이해
태블로, EDA, 머신러닝 수업 등에 대한 기초 마련
데이터 분석 업무를 하기 위한 기초 통계에 대한 이해

📍 통계학(statistics)

산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(넓은 의미의 국가학)"과 영국의 "정치산술(정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률이론"과 결합하여, 수립한 학문에서 발전되었다.

기술 통계학(descriptive statistics)
데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
추론 통계학(inferential statistics)
모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

📍 데이터와 그래프

🔖 변수(Variable) : 변하는 숫자

수학에서 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용되 '기호'이다.
통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 한다. 해당 변수 에 대하여 관측된 값들이 바로 자료(Data)가 된다

🔖 질적 자료

관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
데이터 입력시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음(순서형 변수: 교육수준, 건강상태)

🔖 양적 자료

관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음

🔖 EDA (Exploratory Data Anlysis)

데이터를 분삭하는 과정중 가장 많이 사용하는 분석방법
데이터를 탐색하는 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임

[ 목적 ]
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

🔖 데이터 시각화 (Data visualization)

데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다.
시간시각화, 분포시각화, 관계시각화, 비교시각화, 공간시각화

시각화 tool = BI tool
(EXEL | Tableau | Qlick | TIBCOsoftware)

오픈소스 시각화 tool
(PYTHON | R | Zeppelin)

📍 데이터의 기초 통계량

🔖 기초통계량

통계량(statistic) : 표본으로 산출한 값, 기술통계량이라고도 표현함
통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음

🔖 중심 경향치

표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균등이 있음

- 평균

표본평균 : 표본으로 추출된 표본 평균(sample mean, $\overline {x}$ 로 표기)
모평균 : 모집단의 평균 ( $\eta$ 라고 표기)

평균은 모집단으로 부터 관측된 $n$ 개의 $x$ 가 주어졌을때 아래와 같이 정의됨

- 중앙값(median)

평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두개의 값을 산술 편균한 값임
이상치가 포함된 데이터에 대해서 사용함

- 최빈값(mode)

관측치 중에서 가장 많이 관측되는 값
옷사이즈와 같이 명목형 데이터의 경우 사용

🔖 산포도

데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

- 범위(Range)

데이터의 최대값과 최소값의 차이를 의미함

- 사분위수(quartile)

전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두번째를 제2사분위수(Q2), 세번째를 제3분위수(Q3)이라고 함

사분위수 범위(interquartile range : IQR) = 제3사분위수(Q3)-제1사분위수(Q1)

- 백분위수(percentile)

전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료 값을 말한
데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음
1) np가 정수이면, np번째와 (np + 1)번째 자료의 평균
2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

- 분산(variance)

데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도

- 표준편차(standard deviation)

분산의 제곱근으로 정의

- 변동계수(Coefficient of Variation : CV)

평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함
변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함

🔖 왜도(skew)

자료의 분포가 얼마나 비대칭적인지 표현하는 지표
왜도가 0이면 좌우 대칭
왜도가 0에서 클수록 우측꼬리가 김,
왜도가 0에서 작을수록 좌측꼬리가 김

🔖 첨도(kurtosis)

확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
첨도값(K) < 3 정규분포보다 꼬리가 얇은분포
첨도값(K) > 3 정규분포보다 꼬리가 두꺼운분포

📍 확률 이론

🔖 확률(probability)

모든 경우의 수에 대한 특정 사건이 발생하는 비율

🔖 표본 공간(Sample Space)

실험에서 나올 수 있는 모든 가능한 결과들의 집합(모든 경우의수)
동전 던지기의 경우 S = {앞면, 뒷면} , 주사위던지기 S ={1,2,3,4,5,6}
사건 A가 일어날 확률
예제 : 동전 두개를 던져서 뒷면이 한번만 나오는 확률은?

🔖 확률의 성질

확률의 덧셈법칙 : $P(A \cup B)=P(A) + P(B) - (A \cap B)$
A와 B가 배반 사건이면, $P(A \cap B) = P(\oint) = 0$
A의 여사건이 $A^c$ 이면, $P(A) + P(A^c) = 1$
예제 : 1부터 13까지의 13장의 카드에서 한장을 뽑는 실험에서 아래의 사건을 생각해보자 ( A = 짝수를 뽑을 확률, B = 5이하의 카드를 뽑을 확률)
(a) 표본공간을 정의하고 각 사건의 확률을 구하라
(b) A와 B의 곱사건과 합사건을 구하라

🔖 조합과 순열

$!$ (Factorial) : $n$ 개를 일렬로 늘여 놓은 경우의 수를 $n!$ 로 표현
순열 (Permutation) : 순서를 고려하여 $n$ 개 중 $r$ 개를 뽑아서 배열하는 경우의 수
조합(Combination) : 순서를 고려하지 않고 $n$ 개중 $r$ 개를 뽑아서 배열하는 경우의 수
예제 : 로또 1등의 확률과 2등의 확률을 구하시오

🔖 조건부 확률(conditional probability)

어떤사건 A가 발생한 상황에서(주어졌을 떄) 또 하나의 사건 B가 발생할 확률

확률의 곱셈법칙

베이즈 정리(Bayes' Theorem)

표본 공간 $S$ 에서 서로 배반인 사건 $B_{1}, B_{2}, ..., B_{k}$ 에 의하여 분할되어 있을때, 임의의 사건 A에 대하여 다음이 성립
예제 : 자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
a) 임의의한고객을선택했을때,그고객이1년이내에사고를낼확률을구하시오
b) 어떤 고객이 1년내 사고를 낸 고객이라면, 그 고객이 A등급일 확률을 구하시오

🔖 확률 변수

표본공간에서 각 사건에 실수를 대응시키는 함수
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
일반적으로 확률 변수는 대문자로표현, 확률변수의 특정값을 소문자로 표현
- 확률 변수 : 대문자로 표현(X, Y ...)
- 확률 변수의 특정값 : 소문자로 표현(x, y ...)

이산 확률 변수(discrete random variable)

셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우

연속 확률 변수(continuous random variable)

연속형 또는 무한대와 같이 셀 수 없는 경우

확률 변수의 평균 (기대값)

예시 : 주사위를 던졌을때의 기대값

확률 변수의 분산

기대값의 성질

a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립

분산의 성질

a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립

공분산

2개의 확률변수의 선형 관계를 나타내는 값
하나의 값으로 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐
예제
a) $E(X)=3$ 일때 $E(2X+1)$ 을구하시오
b) 확률 변수 $X$ 의 평균이 $5$ 이고 분산이 $10$ 일 때, 확률변수 $X^2$ 이 평균을 구하시오
예제
복권 당첨 확률이 표와 같고, 확률변수 $X$ 가 복권의 당첨 상금일때 당첨금 $X$ 의기대값을 구하시오

심하림

다음 포스트