데이터 취업 스쿨 스터디 노트 -(41) 기초통계

테리·2024년 7월 31일

제로베이스 데이터 스쿨(Data Science & Analytics)

목록 보기

44/111

데이터의 이해

변수

수학: 정해지지 않은 임의의 값
통계학: 조사 목적에 따라 관측된 자료값

질적 자료

성별, 주소지(시/군/구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터. 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음.

명목형 변수: 성별, 혈액형
순서형 변수: 교육수준, 건강상태 처럼 순서에 의미가 있음.
ex) 초졸:1, 중졸:2, 고졸:3

양적 자료

숫자의 크기가 의미를 갖고 있음.

이산형 변수: 시험 성적(1~100)
연속형 변수: 사람 키처럼 데이터가 쭉 이어져 있음.

EDA

데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법을 Exploratory Data Analysis 라고함. 도표, 그래프, 요약 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법

[목적]
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치(너무 튀는 데이터) 발견 등에 활용

데이터 시각화

도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것.
데이터를 스토리델링한다.

시각화 툴(BI 툴)

excel, 태블로

오픈소스 시각화 기능

zeppelin, 파이썬, R

데이터의 기초 통계량

기초 통계량

통계량은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음.

중심 경향치

표본의 중심을 설명하는 값 = 대표값 = 중심경향치
대표적인 중심 경향치: 평균, 중앙값, 최빈값, 절사 평균 등

평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 하며 u라고 표기함

*중앙값(median)

가운데 위치하는 값
관측치가 홀수: 중앙, 관측치가 짝수: 가운데 두개의 값을 산술 평균한 값
이상치가 포함된 데이터에 대해서 사용함.

*최빈값(mode)

관측치 중에서 가장 많이 관측되는 값
옷 사이즈와 같이 명목형 데이터의 경우 사용

*산포도

데이터가 어떻게 흩어져 있는지 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야함.
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음.

범위(Range)
: 데이터의 최대값과 최소값의 차이

사분위수(quartile)
: 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)이라고 함.
사분위수 범위:IQR = 제3사분위수(Q3) - 제1사분위수(Q1)

백분위수(percentile)
: 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값.
제 p백분위수는 p%에 위치한 자료 값을 말함.
데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음.
1) np가 정수이면, np 번째와 (np+1) 번째 자료의 평균
2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료(n=10, p=0.75 -> np=7.5 -> m=8)

분산(variance)
: 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도.
데이터의 각각의 값들의 편차 제곱합으로 계산하며 수식은 아래와 같음.