1장 데이터 분석 개요
1절 데이터 분석 기법의 이해
(1) 데이터 처리
데이터 마트 생성 단계

- 데이터를 분석하기 위해서는 데이터 분석 셋을 만들어야 한다. -> 데이터 마트
- 대기업은 데이터 웨어하우스와 데이터 마트를 통해 분석 데이터를 가져와서 사용한다.
- 데이터 웨어하우스(Data Werehouse) : 기업이나 조직의 다양한 소스로부터 수집한 데이터를 통합, 저장하고, 분석하기 위해 설계된 데이터베이스 시스템
- 데이터 마트(Data Mart) : 데이터 검증, 분석 등 특정 목적을 위해 설계된 데이터베이스
- 기존 운영 시스템(legacy) : 전반적인 운영 업무를 수행하는 시스템
- legacy 시스템에서 쌓인 데이터들은 데이터 웨어하우스로 데이터를 보내기 위해 중간에 한 단계 저장 장소(전처리하는 공간)를 거치게 된다.
- 데이터 웨어하우스에 넣기 위해 많은 데이터의 필요한 부분을 정제한다.
- legacy에 들어온 raw데이터(가공되지 않은 데이터)는 정제하는 공간인 ODS(Operational Data Store : 운영데이터저장소)에 들어와서 전처리 작업을 하고 데이터 웨어하우스에 보내 데이터가 쌓인다.
- 그러면 데이터 웨어하우스에 활용 가능한 데이터들이 다 저장이 된다.
- factor table에 데이터 분석에 활용 가능한 데이터들을 다 저장한다.
- 주요 업무에 맞는 데이터들을 뽑아내는데, 그 단계가 데이터 마트를 생성하는 단계이다.
- 각각 업무에 맞는 데이터를 데이터 웨어하우스, 데이터 마트에서 가져와서 데이터를 활용한다.
- legacy에서는 실시간으로 데이터를 분석해 업무를 처리하기 때문에 legacy에서 데이터를 불러들이기는 작업을 하는 것은 전체적인 운영의 안전성을 떨어뜨린다.
(2) 시각화
- 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다.
- 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다.
- 탐색적 분석을 할 때 시각화는 필수이다.
- 시각화는 데이터 탐색을 위해 사용되기도 하지만 시각화만으로도 인사이트와 결과 도출을 수행하는 등 분석 그 자체의 역할도 수행한다.
(3) 공간분석(GIS)

- 공간분석(Spatial analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
- 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다.
(4) 탐색적 자료 분석(EDA)
- 다양한 차원(dimension)과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해 가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭
- 프린스톤 대학의 튜키(John W.Tukey)교수가 1977년 저서 발표
- EDA의 4가지 주제 : 저항성(resistance)의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성(revelation)
- 저항성의 강조 : 데이터 분포가 기울어져 있을 때, 데이터의 대표하는 값을 평균, 표준편차가 아닌 중앙값이나 4분위값, 최댓값, 최솟값 등으로 표시하는 것
- 자료변수의 재표현 : 주어진 데이터를 더 이해하기 쉽게 연속형 자료를 구간으로 나누어 범주형으로 재표현하는 등의 과정
- 탐색적 분석의 효율성 확대 방법 : 의미가 있을 것으로 판단되는 변수 집단과 아닌 집단을 1차 구분
(5) 통계 분석
- 통계 : 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것
- 기술 통계(Descriptive Statistics) : 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
- 추측 통계(Inferential Statistics) : 모집단으로부터 추출된 표본의 표본 통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
- ex) 전체 유권자 5,000,000명 중 1,000명을 무작위로 뽑아 지지율을 조사했는데, 표본에서 60%가 후보 A를 지지했다. 모집단 전체에서 후보 A의 지지율이 약 60%일 것이라고 할 수 있는가?
활용분야
- 정부의 경제 정책 수립과 평가의 근거자료로 활용
- 농업(가뭄, 수해 또는 병충해 등에 강한 품종의 개발 및 개량)
- 의학(의학적 치료 방법의 효과나 신약 개발을 위한 임상실험의 결과 분석)
- 경영(제품 개발, 품질관리, 시장조사, 영업 관리 등에 활용)
- 스포츠(선수들의 체질 향상 및 개선, 경기 분석과 전략분석, 선수평가와 기용 등)
(6) 데이터 마이닝
- 대표적인 고급 데이터 분석법으로 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법
방법론
- 데이터 베이스에서의 지식탐색 : 데이터 웨어하우스에서 데이터마트를 생성하면서 각 데이터들의 속성을 사전 분석을 통해 지식을 얻는 방법
- 기계학습(machine learning) : 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야로 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM 등
- 패턴인식(pattern recognition) : 원자료를 이용해서 사전지식과 패턴에서 추출된 통계정보를 기반으로 자료 또는 패턴을 분류하는 방법, 장바구니 분석, 연관규칙 등
활용분야
- 데이터베이스 마케팅(방대한 고객의 행동 정보를 활용해 목표 마케팅, 고객 세분화, 장바구니 분석, 추천시스템 등)
- 신용평가 및 조기경보 시스템(금융기관에서 신용카드 발급, 보험, 대출 발생 시 업무에 적용)
- 텍스트 마이닝(전자우편, SNS 등 디지털 텍스트 정보를 통해 고객 성향 분석, 감성분석, 사회관계망 분석 등)