수학: 정해지지 않은 임의의 값
통계학: 조사 목적에 따라 관측된 자료값
성별, 주소지(시/군/구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터. 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음.
숫자의 크기가 의미를 갖고 있음.
데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법을 Exploratory Data Analysis 라고함. 도표, 그래프, 요약 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
[목적]
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치(너무 튀는 데이터) 발견 등에 활용
도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것.
데이터를 스토리델링한다.

시각화 툴(BI 툴)
오픈소스 시각화 기능



범위(Range)
: 데이터의 최대값과 최소값의 차이
사분위수(quartile)
: 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)이라고 함.
사분위수 범위:IQR = 제3사분위수(Q3) - 제1사분위수(Q1)
백분위수(percentile)
: 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값.
제 p백분위수는 p%에 위치한 자료 값을 말함.
데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음.
1) np가 정수이면, np 번째와 (np+1) 번째 자료의 평균
2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료(n=10, p=0.75 -> np=7.5 -> m=8)
분산(variance)
: 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도.
데이터의 각각의 값들의 편차 제곱합으로 계산하며 수식은 아래와 같음.

표준 편차(standard deviation)
: 분산의 제곱근으로 정의
모분산
: 크기가 N인 모집단의 평균을 u라고 할 때 모평균과 모분산은 다음과 같음

변동계수(Coefficient of Variation: CV) - 생각보다 많이 사용함
: 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함.
표준편차를 평균으로 나눔.


자료가 얼마나 비대칭적인지 표현하는 지표. 왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록(음수) 좌측 꼬리가 김

확률분포의 꼬리가 두꺼운 정도를 나타내는 척도.
첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움.
3보다 작을 경우에는(K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다.
3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단
