데이터 분석 기법의 이해
- 데이터 처리과정
- 데이터 분석을 위해소ㅓ는 데이터 웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 구성
- 신규 데이터나 DW에 없는 데이터는 기존 운영시스템(LEDACY)에서 직접 가져오거나 운영데이터 저장소(ODS)에서 정제된 데이터를 가져와 DW의 데이터와 결합하여 활용
- 시각화 기법
- 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 효율적
- 대용량 데이터를 다룰 때와 탐색적 분석에서 필수
- 공간분석
- 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도위에 관련된 속성들을 생성하고 크기 모양, 선 굵기등을 구분하여 인사이트를 얻음
- 탐색적분석EDA
- 다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정
- EDA 4가지 주제
: 저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성
- 통계분석
- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것
- 데이터 마이닝
- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴,규칙 등을 탐색하고 이를 모형화함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법
- 방법론 : 기계학습(인공신경망, 의사결정나무, 클러스터링, SYM)
- 패턴인식: (연관규칙, 장바구니 분석) 등
모델링 서능 평가 , 데이터 마이닝활용 평가 기준
R
특징
- 오픈 소스 프로그램
- 뛰어난 그래픽 및 성능
- 시스템 데이터 저장 방식
- 모든 운영체제에서 사용가능(윈도우, 맥, 리눅스)
- 표준 플랫폼( S언어 기반)\
- 객체지향언이면서 함수형 언어