레거시 데이터 ( RDBMS ) , 멀티 미디어 데이터 등을 한데 묶어서 어떻게 관리할 수 있을까?
데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다.
즉, 여러 DB를 통합한다~ 정도로 이해하자
유실되거나 , 틀렸거나 표준화되어 있지 않은 Data
예시로 알아보자
Price에 음수값을 가지고 있는 쓰레기 레코드가 존재한다.
B01의 name 필드가 name에 맞지 않은 data가 들어가 있다.
위와 같은 쓰레기 데이터들을 DW에서 정규화해주고 정제해줘야한다.
여러 Dimension을 intergrate 하여 별처럼 생겼다고하여 Star 스키마라고한다.
time_tag , pid, sid의 조인을 통해 'Sales' 테이블을 생성하고 있다.
추가적인 Computing을 통해서 새로운 필드를 생성하였다.
위의 과정을 통해서 DW table 'Sales'를 만들어 주었다.
'Sales'는 각 table의 PK를 포함하고 있다.
DW table에 대하여 기존의 SQL을 통한 쿼리는 row와 col로 이루어진 matrix이므로 한계가 존재하였다. OLAP은 dimension을 추가로 도입하여 다른 측면으로 view가 가능하다.
product , store, time 의 3가지 dimension으로 cube를 생성할 수 있다.
즉, 시간대별 store의 product를 볼 수 있게되었다!
특정 time dimension에 대하여 matrix로 slicing하였다.
Cube 속의 작은 Cube로 분리하여 일부 제품, 일부 가격, 일부 시간으로 분석
기존 time dimension에 따른 product와 store cube를
store dimension에 따른 product와 time cube로 축 변환해주었다.
3차원 Cube를 2차원으로 dimension을 낮추어 평면화 시켜주었다.
예측 , 분류 , 구분을 위하여 명확하지 않게 저장된 pattern을 찾아내고 발견하는 것 .
우선 DW table을 구축한다.
이후 결정 tree를 구축한다.
결정 Tree를 통한 분류를 진행한다.
위와 같은 Classification을 통해 여러 응용을 할 수 있다 ( 분석, 규칙 찾기 등등...)