: 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것
데이터 웨어하우스에 적재된 내용들을 데이터 마트 형태로 우리가 활용할 수 있도록 하는 전체 데이터 플로우를 보여준다. 은행의 경우에는 레거시 시스템을 통해 모여드는 다양한 트랜잭션 데이터들을 매일 밤마다 배치 작업들을 하게 된다.
대기업에서는 데이터 분석을 위해 데이터 웨어하우스(DW)나 데이터 마트(DM)에서 데이터를 추출해옵니다. 또한 운영시스템에서 데이터를 추출하여 분석용 데이터를 구성하게 됩니다. 데이터를 추출 가능한 기업내 여러 시스템의 명칭과 프로세스를 이해하면 보다 효과적으로 분석 데이터 마트(DM)를 구성할 수 있게 된다.

제일 먼저 데이터들을 맡아서 넘기는 쪽이 스테이지 영역(Staging Area)이다. 여기에 데이터를 넘기면 간단하게 어떤 데이터들이 저장되어 있는지 확인 후 ODS(Operating Data Store)라는 저장장소에서는 이 데이터에 대한 품질을 테스트하고 그 다음에 이 품질 테스트에 대해 나온 결과 중 미비한 점이 있다면 클렌징 작업을 ODS에서 진행하게 된다.
데이터들이 완전히 클렌징이 되었다면 데이터 웨어하우스(DW)로 이동한다. 각각의 테이블마다 원하는 값들을 계속해서 쌓아두게 되고 데이터 웨어하우스의 특징(수정 불가, 읽기만 가능) 데이터 마트(DM)와 같은 툴을 이용해 데이터 분석을 하여 분석 내용들을 확인하는 형태이다.
일반적으로 모형을 개발할 때는 데이터 웨어하우스(DW)에 있는 데이터 테이블들을 활용하여 분석에 필요로하는 여러 가지 유형들의 데이터들을 데이터마트(DM)에 구성하게 된다. 즉, 데이터 마트(DM)는 한 부서의 데이터 웨어하우스(DW)에서 필요로 하는 내용들만 뽑아 데이터 마트(DM)을 구성하게 된다.
이후에 데이터 마트(DM)이 구성되면 R, Python, SAS 등의 프로그램으로 데이터들을 불러들여서 이 프로그램에서 실질적인 업무를 하게 된다.
데이터 분석을 위해서는 데이터 웨어하우스(DW)아 데이터 마트(DM)를 통해 분석 데이터를 구성한다.
신규 데이터나 DW에 없는 데이터는 기존 운영 시스템(Legacy)에서 가져오기보다는 운영 시스템에서 임시로 데이터를 저장하는 스테이징 영역(Staging Area)에서 데이터를 전처리해서 운영 데이터 저장소(ODS)에 저장된 데이터를 가져와 DW와 DM을 결합하여 데이터를 구성한다.
가장 낮은 수준의 분석이지만 복잡한 분석을 보다 더 효율적으로 해석할 수 있어 빅데이터 분석에서 필수적인 분석 방법이다.
여러 차트 형식의 시각화와 트리구조, 다이어그램 맵, 워드 클라우드 등
시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다. 탐색적 분석을 할 때 혹은 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수적이다.
통계분석은 크게 추론통계와 기술통계 두 가지로 나뉜다. 시각화는 기술통계에 훨씬 가깝다. 그래서 기술통계라는 건 샘플 그 자체로 상태를 살펴보기 위해 통계량이나 그래프와 같은 것들을 적극적으로 활용해서 통계의 데이터들을 찾아내는 것들이 기술통계이다.
'많은 데이터에서 우리가 그 특징들을 찾아낼 수 있을 것이다'라고 해서 데이터 그 자체를 분석하는 EDA(Exploratory Data Analysis)라는 연구가 시작되었다. 그 연구는 2000년대 중반부터 보다 더 적극적으로 그래프나 다양한 디자인을 도용하여 인사이트를 바로 뽑아낼 수 있도록 발전하게 된다.