통계 1일차 chapter1(~4)

박영선·2023년 6월 7일
0

통계학

산술적 방법을 기초로, 다량의 데이터를 관찰, 정리, 분석 방법을 연구

  • 기술통계학 : 수집한 데이터를 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론

  • 추론통계학 : 모집단으로부터 추출한 표본을 분석, 모집단의 특성을 추측하는 방법론

통계

데이터의 이해

1. 데이터와 그래프

변수 : 임의값 표현을 위한 기호
통계학에서는 조사목적에 따라 관측된 자료값을 변수
해당 변수에 대해 관측된 값이 바로 자료

질적자료 : 관측된 데이터가 성별, 업종등과 같이 몇개의 범주로 구분, 표현되는 데이터
데이터 입력 시 1은 남자, 2는 여자로 표현 가능하나 숫자의 의미는 없음

양적자료 : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미가 있음
숫자 표현할 때는 이산형 데이터 / 연속형 데이터로 구분

Exploratory Data Analysis

데이터 분석 과정 중 가장많이 사용하는 분석방법을 EDA라고함

사용목적
가설 수립 / 적절한 모델 및 기법선정 /
변수 간 패턴 찾고 통계적 추론을 기반으로 가정을 평가 /
분석데이터 적절여부 평가, 추가수집, 이상치 발견등에 활용

데이터 시각화

분석결과 쉽게 이해할 수 있도록 시각적으로 표현, 전달

시각화 Tool (BI Tool)

2. 데이터의 기초통계량

기초 통계량 : 표본으로 산출한 값, 기술통계량이라고도 표현함
통계량을 통해 데이터가 갖는 특성 이해 가능

중심 경향치 : 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치 라고 함
대표적 중심경향치는 평균이며, 중앙값, 최빈값, 절사평균 등이 있음

중앙값 : 평균과 같이 자주 사용 / 표본으로부터 관측치 크기순 나열시 가운데 값
		관측치가 홀수일 경우 중앙, 짝수일 경우 가운데 두개의 값의 산술평균값
        이상치가 포함된 데이터에 대해서 사용
        
최빈값 : 관측치 중 가장많이 관측되는 값
		옷 사이즈 같이 명목형 데이터의 경우 사용
        
산포도 : 데이터의 흩어진 정도 확인 / 중심경향치와 함께 고려
		사분위수, 분산, 표준편차, 변동계수 등으로 측정
        
범위 : 데이터의 최대값, 최소값 차이

사분위수 : 전체 데이터 오름차순 정렬하여 4등분하여 Q1부터 Q3까지 나눔
		사분위수 범위(IQR) : Q3 - Q1
        
백분위수 : 전체 데이터 오름차순 정렬, 주어진 비율에 의해 등분
		제p백분위수는 p%에 위차한 자료값을 말함
        ex) 데이터 오름차수 배열, 자료가 n개있을때 제(100*p) 백분위수는
        np가 정수이면 np번째와 (np+1)번째 자료의 평균
        np가 정수가 아니면 np보다 큰 최소의 정수를 m이라고하며 m번째 자료
        
분산 : 데이터 분포 얼마나 흩어져 있는지 알수있는 측도
	  데이터 각 값들의 편차 제곱합으로 계산
      
표준편차 : 분산의 제곱근

변동계수 : 평균이 다른 두개이상의 그룹의 표준편차 비교

왜도 : 자료분포가 얼마나 비대칭적인지 표현하는 지표
	  0이면 좌우대칭, 클수록 우측꼬리가 길고 작을수록 좌측꼬리가 길다
      
첨도 : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
	  3에 가까우면 산포도가 정규분포에 가까움
      3보다 작으면 정규분포보다 꼬리가 얇고 크면 두껍다.
      
      
      

확률이론 - 확률

확률 : 모든 경우의 수에 대한 특정사건이 발생하는 비율

표본 공간 : 어떤 실험에서 나올수 있는 모든 가능한 결과들의 집합

A가 일어날 확률이 P(A)이고 표본공간(S)가 유한집합일때 모든 원소들이 일어날 확률이 같으면
P(A) = 사건A가 일어날 원소의 수 / 표본공간 S의 원소의 수

통계적 확률의 정의

어떤 시행을 N번 반복했을때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고
사건 A가 일어날 상대도수라고 함

N이 무한히 커지면 상대도수는 일정한 수로 수렴, 이 극한값을 limr/n을
사건 A의 통계적 확률 또는 경험적 확률 이라고 함

확률의 성질

합사건 : 사건 A 또는 사건 B가 일어날 확률
곱사건 : 사건A와B가 동시에 일어날 확률
배반사건 : 사건A와 B가 동시에 일어날 수 없을 경우
여사건 : 사건A가 일어나지 않을 확률

조합과 순열

!(Factorial) : n개를 일렬로 늘여놓은 경우의 수

순열(Permutation) : 순서 고려하여 n개중 r개 뽑아서 배열하는 경우
n! / (n-r)!

조합(Combination) : 순서 고려없이 n개 중 r개뽑아서 배열
n!/r!(n-r)!

조건부 확률 : 사건A가 발생한 상황에서 사건B가 발생할 확률

베이즈 정리 : 표본공간 S에서 서로 배반인 사건들에 의하여 분할 되어 있을때,
임의의 사건A에 대하여 다음이 성립

확률이론 - 확률 변수

확률 변수 : 표본공간에서 각 사건에 실수를 대응시키는 함수

하나의 사건에 대해 하나의 값을 가지며, 실험결과에 의해 변함

일반적으로 확률변수는 대문자로 표현, 특정값을 소문자로 표현

이산확률변수 : 셀 수 있는 값들로 구성되거나 일정범위로 나타나는 경우
연속확률변수 : 연속형 또는 무한대와 같이 셀 수 없는 경우

분산의 성질

예제

profile
데이터분석 공부 시작했습니다

0개의 댓글