데이터 처리 프로세스, 데이터 분석 기법 중 시각화, 공간분석, 탐색적 자료 분석을 알아보자.
데이터 분석을 위한 데이터마트
데아터웨어하우스(DW)
나 데이터마트(DM)
에서 데이터 추출운영시스템
에서 데이터를 추출하여 분석용 데이터 구성데이터 시각화
도표
나 그림
으로 한눈에 분석내용을 인지할 수 있는 데이터 분석기법낮은 수준
의 분석효율적
으로 인사이트 얻음
공간분석
공간적 차원
과 관련된 속성을 지도 위에 시각화
하여 인사이트를 얻는 방법탐색적 자료분석
차원
과 값
을 조합해 특이한 점
이나 의미있는 사실
을 도출하는 분석변수의 특징
과 변수들 간의 관계
를 탐색하는 분석 방법데이터 분석
: 통계
에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야
활용
데이터웨어하우스(DW)
와 데이터마트(DM)
을 통해 분석 데이터를 가져와 사용신규시스템
/DW에 포함되지 못한 자료
의 경우 기존 운영시스템(Legacy)
이나 스테이징 영역(Staging Area)
과 ODS(Operational Data Store)
에서 데이터를 가져와서 DW
에서 가져온 내용과 결합
하여 활용운영시스템
에 직접 접근
해 데이터를 활용하는 것은 매우 위험하므로 거의 이루어지지 X스테이징 영역(Staging Area)
의 데이터는 운영시스템
에서 임시
로 저장된 데이터이기 때문에 가급적 클렌징 영역
인 ODS
에서 데이터 전처리
를 해서 DW
나 DM
과 결합하여 활용최종 데이터 구조
로 가공
데이터 마이닝 분류
분류값
과 입력변수
들을 연관시켜 인구통계
, 요약변수
, 파생변수
등 산출정형화된 패턴 처리
비정형 데이터
/소셜 데이터
는 정형화한 패턴
으로 처리
비정형 데이터
: DBMS
에 저장됐다가 텍스트 마이닝
을 거쳐 데이터마트
와 통합
관계형 데이터(소셜 데이터)
: DBMS
에 저장되어 사회 신경망분석
을 거쳐 분석결과 통계값
이 데이터마트
와 통합
되어 활용
낮은 수준
의 분석복잡한 분석
보다 더 효율적
빅데이터 분석
에서 필수
탐색적 분석
시 필수
SNA 분석(사회연결망 분석)
시 자주 활용공간분석(Spatial Analysis)
는 공간적 차원
과 관련된 속성
들을 시각화
하는 분석지도
위에 관련 속성들을 생성하고 크기
, 모양
, 선 굵기
등으로 구분하여 인사이트 얻음차원
과 값
을 조합해가며 특이한 점
이나 의미있는 사실
을 도출하고 분석의 최종 목적을 달성해가는 과정특징
과 내재하는 구조적 관계
를 알아내기 위한 기법의 통칭EDA
의 4가지 주제
저항성
의 강조
잔차 계산
자료변수
의 재표현
그래프
를 통한 현시성
탐색적 분석
의 효율
예시
데이터이해 단계(변수 분포와 특성 파악)
와 변수생성 단계(분석목적에 맞는 주요한 요약/파생변수 생성)
, 변수선택 단계(목적변수에 의미있는 후보 변수 선택)
에 활용통계
한눈에 알아보기 쉽게
일정한 체계
에 따라 숫자
와 표
, 그림
의 형태로 나타낸 것기술통계(Descriptive Statistics)
모집단
으로부터 표본
을 추출하고 표본
이 가지고 있는 정보
를 쉽게 파악
할 수 있도록 데이터를 정리
하거나 요약
하기 위해 하나의 숫자 또는 그래프 형태로 표현
하는 절차추측(추론)통계(Inferential Statistics)
모집단
으로부터 추출된 표본
의 표본통계량
으로 부터 모집단의 특성
인 모수
에 관해 통계적으로 추론
하는 절차활용분야
정부
의 경제정책 수립
과 평가의 근거자료
로 활용농업
의학
경영
스포츠
고급
데이터 분석법대용량의 자료
로부터 정보를 요약
하고 미래에 대한 예측
을 목표로 자료에 존재하는 관계
, 패턴
, 규칙
등을 탐색
하고 이를 모형화
함으로써 이전에 알려지지 않은 유용한 지식을 추출
하는 분석 방법방법론
데이터베이스
에서의 지식 탐색
: 데이터웨어하우스
에서 데이터마트
를 생성하면서 각 데이터들의 속성
을 사전분석
을 통해 지식을 얻는 방법
기계학습(Machine Learning)
: 인공지능
의 한 분야.
컴퓨터
가 학습
할 수 있도록 알고리즘
과 기술
을 개발
하는 분야
ex) 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM
패턴인식(Pattern Recognition)
: 원자료를 이용해서 사전지식
과 패턴
에서 추출된 통계 정보
를 기반으로 자료
또는 패턴
을 분류
하는 방법
ex) 장바구니 분석, 연관규칙 등
활용분야
데이터베이스 마케팅
신용평가 및 조기경보시스템
생물정보학
텍스트마이닝