데이터를 요약하고, 기본적인 패턴을 분석하는 기법으로 평균, 분산, 정규분포 등의 개념을 이용하여 데이터의 특성을 이해하는 과정
→ 데이터 분석 및 머신러닝 모델 구축을 위한 기본적인 도구로 활용될 것임
데이터의 대표적인 값(평균적인 특성)
데이터의 중심값을 나타내는 지표
평균(Mean)
모든 값을 더한 후 개수로 나눈 값
값들의 무게 중심이 어디인지를 나타내는 값
중앙값(Median)
변수의 값들이 크기의 순서로 배열되었을 때 정확히
한가운데에 위치(Position)하는 숫자
최빈값(Mode)
데이터 중에서 발생하는 도수가 가장 자주 나타나는 값
중심경향의 측정치
자료 분포의 중심이 되어 전체 자료를 대표하는 값
측정값들이 집중되어 있는 위치를 말함
→ 이를 대푯값이라고 함
한변수의 중심경향을 측정하는 특성값
산술평균, 중앙값, 최빈값

데이터 값들이 퍼져 있는 정도
데이터의 변동성을 측정하는 지표
범위(Range)
최대값 - 최소값
분산(Variance, 시그마2)
각 데이터 값과 평균 간의 거리 제곱의 평균
-> 데이터의 퍼짐 정도
표준편차(Standard Deviation, 시그마)
각 분산의 제곱근(데이터의 평균적인 변동성).
분산과 표준편차는 거의 같은 개념임 단지, 분산에 제곱근을 해 주어 값을 조정한 것이 표준편차.
-> 데이터의 퍼진 정도를 파악할 수 있게 해주는 지표
자료에 대한 명확한 분포 특성을 알아보기 위해서는 대푯값인 중심 위치와 함께 흩어져 있는 정도를 파악하는 산포도가 필요
편차(Deviation)
각 변량이 평균에서부터 얼마나 떨어져 있는지를 파악하기 위해 각각의 변량 값에서 평균을 뺀 값
예시

변동의 추정치

데이터의 전체적인 분포 형태
데이터가 어떻게 퍼져 있는지를 나타내는 개념
정규분포(Normal Distribution)
데이터가 평균을 중심으로 종 모양으로 분포
왜도(Skewness)
데이터의 대칭성 정도(좌우 기울기)
첨도(Kurtosis)
데이터의 뾰족한 정도
왜도(Skewness): 데이터 분포의 좌우 비대칭 정도를 표현하는 척도

첨도(Kurtosis): 분포가 정규분포보다 얼마나 뾰족하거나 완만한지의 정도를 나타내는 척도

두 변수 간 관계 분석
두 변수 간의 관계를 나타내는 지표
선형 관계 분석 (-1~1)

중심 경향성 분석
데이터의 대푯값 확인(평균, 중앙값, 최빈값)
산포도 분석
데이터 변동성 측정(표준편차, 분산)
데이터 분포 분석
데이터의 패턴 및 특성 확인(정규분포, 왜도, 첨도)
상관관계 분석
변수 간 관계 파악(상관계수)
기초 통계는 데이터의 특성을 쉽게 파악할 수 있으며, 이후 데이터 분석 및 예측 모델링의 기반이 됨
데이터 통계 (Data Statistics)
데이터 분석 (Data Analysis)
핵심 차이점
01. 데이터 기반 의사결정(Data-Driven Decision Making, DDDM) 필수
02. AI, 머신러닝, loT 등 데이터 기반 산업 확산
03. 금융, 의료, 마케팅, 제조업 등 다양한 분야에서 활용
01. 데이터 수집 → loT, 센서, DB, API 활용
02. 데이터 정리 → 결측값 처리, 정규화
03. 데이터 탐색(EDA) → 통계분석, 시각화
04. 모델링 & 예측 분석 → 머신러닝, AI 모델 적용
05. 결과 해석 & 의사결정
모집단(Population)이란?
연구 대상이 되는 모든 개체의 집합을 의미.
모집단의 크기는 매우 클 수 있으며, 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 현실적으로 어려움. 따라서, 모집단 전체를 조사하는 대신 일부 표본을 추출하여 분석하고 이를 통해 모집단의 특성을 추정함.
예) 대한민국 성인 남성의 평균 키 분석
→ 대한민국 모든 성인 남성이 모집단
표본(Sample)이란?
모집단에서 일부를 추출한 데이터 집합을 의미. 표본을 통해 모집단의 특성을 추정하고 분석, 이를 통해 모집단 전체에 대한 결론을 도출할 수 있음. 표본을 추출할 때는 대표성(Representative)이 중요하며, 무작위로 선택하는 것이 일반적으로 바람직함
예) 대한민국 성인 남성 1,000명을 표본으로 선택하여 평균 키 조사, 전국 대학생 500명을 대상으로 스마트폰 사용 시간 조사





모집단은 일반적으로 분석하기 어렵기 때문에, 표본을 활용하여 모집단의 특성을 추정함
확률 표본 추출(Probability Sampling)
비확률 표본 추출(Non-Probability Sampling)
표본을 추출하는 방법에는 여러가지가 있으며, 연구 목적에 따라 적절한 방법을 선택해야 함.
모집단의 모든 개체가 동일한 확률로 선택될 수 있도록 표본을 추출하는 방식
대표성이 높아 모집단을 잘 반영할 가능성이 큼
대표적인 확률 표본 추출 방법
모집단 내 각 개체(구성원)가 표본으로 선택될 확률이 알려져 있지 않거나, 추출되는 방식이 확률적이지 않는 방법
표본의 대표성 보장이 어렵거나 제한적

예) - 대한민국 성인 남성의 평균 키(μ)
■ 국내 대기업 근로자의 평균 연봉(μ)
■전체 고객의 만족도 비율(P)

01 모수를 직접 구하는 것이 어려우므로, 표본 통계량을 이용하여 모수를 추정
02 표본이 클수록 표본 통계량이 모수에 가까워 짐 (대수의 법칙)
03 표본 통계량을 통해 신뢰구간과 가설검정을 수행하여 모집단의 특성을 추정


모수를 직접 알 수 없기 때문에 표본 통계량을 사용하여 추정
표본 크기가 클수록 표본 통계량이 모수에 가까워 짐
모수는 모집단의 진짜 값이지만 알기 어려움. 따라서 표본 통계량을 이용해 모수를 추정하고, 신뢰구간과 가설검정을 통해 검증함
CRM(Customer Relationship Management)에서 고객 데이터를 분석하여 맞춤형 마케팅 제공
주식 시장 예측, 리스크 분석, 사기 탐지(Fraud Detection)
의료 영상 분석, 유전체 데이터 분석, 질병 예측
스마트 공장에서 loT 데이터 분석하여 생산 최적화
변수와 변수 간의 관계성 검증
특정 변인이 다른 변수에 영향을 주는지 여부 검증
변인들의 기저에 있는 특성 파악→ 유사한 변수끼리 묶는 것을 말함
응답자들을 유사한 특성이 있는 집단으로 분류
예) 시장세분화(Segmentation)
집단을 분류하는 데 영향을 주는 변수
변수들의 특정 요소가 바뀜에 따른 선호, 수요의 변화
측정 대상 간의 유사성이나 상이성, 거리 등을 토대로 이들 간의 관계 구조를 시각적으로 표현
상관관계는 측정된 변수 간의 관련성 정도를 의미하고 두 변수 간의 선형관계가 있는지 없는지를 알아보는 것
-> 한 변수가 다른 변수와 얼마나 밀접한 관련성을 지니고 변화하는지를 파악하기 위해 사용하는 변수 간의 선형성 강도에 대한 통계적 분석
관계의 정도를 알 수 없는 공분산을 극복하기 위해 측정 단위와 관계없이 관계 정도를 비교할 수 있도록 표준화를 한 것
-1에서 0, 0에서 1 사이의 값을 취함

어떤 변수가 다른 변수에 어떠한 영향을 미치는지,
그 인과관계를 분석해 내는 방법론
-> 변수 a의 값이 변수 b에 영향을 미치는 경우 변수 a는 독립변수라 하고, 변수 b는 종속변수라고 함
독립변수와 종속변수가 각각 1개일 때,
독립변수가 종속변수에 미치는 인과관계를 분석
여러 개 독립변수가 1개의 종속변수에 미치는
인과관계를 분석
어떤 새로운 제품이나 서비스에 포함시킬 가장 바람직한 속성의 조합을 발견하는 데 이용되는 통계 방법
소비자가 고려중인 여러 가지 속성의 조합을 제시하고 각 속성의
효용함수를 산출하는 방식으로 이루어짐
특히 다음과 같은 마케팅 분야에서 최근 각광 받고 있는 마케팅 통계 방법 중 하나
신제품 컨셉 개발
기존 제품의 개선 및 Repositioning
국가별 기능에 대한 중요도 및 지불의향_컨조인트 분석 결과 예시

독립변수와 종속변수 간에 관련성 정도(강도)를 파악하기 위해 '선형 회귀방정식(1차 함수)'을 도출하여 회귀선을 추정

변수들 간의 상관관계를 이용하여 상관관계가 높은 변수들끼리 묶어 줌으로써 자료의 요약, 변수구조의 파악, 불필요한 변수의 제거, 측정변수의 타당성 검증 등에 활용할 수 있는 통계 방법
예) Multi-Media에 대한 132가지 태도 및 이미지 문항을 10개의 중요사항으로 요약하고 이를 기초로 Multi-Media에 대한
소비자의 지각구조를 파악하고자 할 때
제품이나 상표에 대한 소비자의 지각과 선호도에 관련된 태도를 조사하여 소비자 인지구조상의 Positioning 관계(Positioning Map)를 파악하기 위한 통계 방법
여러 가지 속성을 동시에 파악하고 속성 간의 상호관련성을 분석할 수 있다는 점에서 다음과 같은 마케팅 문제의 해결에 널리 활용되고 있음
소비자가 제품,상표를 평가할 때 검토하는 중요속성의 파악
소비자의 평가 기준을 근거로 한 대상 제품, 상표의 지각적 위치 파악
주어진 데이터들의 특성을 고려해 그룹을 정의하고
그룹의 특징을 찾아내는 데이터 마이닝의 한 방법
군집(cluster)
비슷한 특성을 보인 데이터들의 집단을 의미하며, 간단하게 유사한 것끼리 묶는 분석 방법
클러터링 과정



01 데이터 통계는 숫자로 된 데이터를 정리하고,
분석의 기반이 됨
02 데이터 분석은 통계를 활용하여 과거를 이해하고, 미래를 예측하는 과정**
03 미래에는 AI & 자동화 분석 시스템이 더욱 발전하여 의사결정 과정이 혁신될 것
데이터 통계는 과거를 설명하고, 데이터 분석은 미래를 예측한다.