통계 1일차 chapter1(~4)

박영선·2023년 6월 7일

기초통계 데이터의 이해 제로베이스 확률 확률변수 확률이론

통계학

산술적 방법을 기초로, 다량의 데이터를 관찰, 정리, 분석 방법을 연구

기술통계학 : 수집한 데이터를 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
추론통계학 : 모집단으로부터 추출한 표본을 분석, 모집단의 특성을 추측하는 방법론

통계

데이터의 이해

1. 데이터와 그래프

변수 : 임의값 표현을 위한 기호
통계학에서는 조사목적에 따라 관측된 자료값을 변수
해당 변수에 대해 관측된 값이 바로 자료

질적자료 : 관측된 데이터가 성별, 업종등과 같이 몇개의 범주로 구분, 표현되는 데이터
데이터 입력 시 1은 남자, 2는 여자로 표현 가능하나 숫자의 의미는 없음

양적자료 : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미가 있음
숫자 표현할 때는 이산형 데이터 / 연속형 데이터로 구분

Exploratory Data Analysis

데이터 분석 과정 중 가장많이 사용하는 분석방법을 EDA라고함

사용목적
가설 수립 / 적절한 모델 및 기법선정 /
변수 간 패턴 찾고 통계적 추론을 기반으로 가정을 평가 /
분석데이터 적절여부 평가, 추가수집, 이상치 발견등에 활용

데이터 시각화

분석결과 쉽게 이해할 수 있도록 시각적으로 표현, 전달

시각화 Tool (BI Tool)

2. 데이터의 기초통계량

기초 통계량 : 표본으로 산출한 값, 기술통계량이라고도 표현함
통계량을 통해 데이터가 갖는 특성 이해 가능

중심 경향치 : 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치 라고 함
대표적 중심경향치는 평균이며, 중앙값, 최빈값, 절사평균 등이 있음

중앙값 : 평균과 같이 자주 사용 / 표본으로부터 관측치 크기순 나열시 가운데 값
		관측치가 홀수일 경우 중앙, 짝수일 경우 가운데 두개의 값의 산술평균값
        이상치가 포함된 데이터에 대해서 사용
        
최빈값 : 관측치 중 가장많이 관측되는 값
		옷 사이즈 같이 명목형 데이터의 경우 사용
        
산포도 : 데이터의 흩어진 정도 확인 / 중심경향치와 함께 고려
		사분위수, 분산, 표준편차, 변동계수 등으로 측정
        
범위 : 데이터의 최대값, 최소값 차이

사분위수 : 전체 데이터 오름차순 정렬하여 4등분하여 Q1부터 Q3까지 나눔
		사분위수 범위(IQR) : Q3 - Q1
        
백분위수 : 전체 데이터 오름차순 정렬, 주어진 비율에 의해 등분
		제p백분위수는 p%에 위차한 자료값을 말함
        ex) 데이터 오름차수 배열, 자료가 n개있을때 제(100*p) 백분위수는
        np가 정수이면 np번째와 (np+1)번째 자료의 평균
        np가 정수가 아니면 np보다 큰 최소의 정수를 m이라고하며 m번째 자료
        
분산 : 데이터 분포 얼마나 흩어져 있는지 알수있는 측도
	  데이터 각 값들의 편차 제곱합으로 계산
      
표준편차 : 분산의 제곱근

변동계수 : 평균이 다른 두개이상의 그룹의 표준편차 비교

왜도 : 자료분포가 얼마나 비대칭적인지 표현하는 지표
	  0이면 좌우대칭, 클수록 우측꼬리가 길고 작을수록 좌측꼬리가 길다
      
첨도 : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
	  3에 가까우면 산포도가 정규분포에 가까움
      3보다 작으면 정규분포보다 꼬리가 얇고 크면 두껍다.