대용량 데이터를 활용, 분석하여 가치있는 정보를 추출하고
생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술이다.
Hadoop & NoSQL
웹 서버에서 생성된 데이터는 RDB나 NoSQL에 텍스트 데이터 형태로 저장되고,
그 후 모든 데이터가 Hadoop에 모여서 대규모 데이터처리가 실행된다.
다수의 컴퓨터로 대량의 데이터를 처리하기 위한 시스템
방대한 데이터를 저장할 스토리지와 이를 순차적으로 처리할 수 있는 구조가 필요해 !
→ 이를 가능하게 해주는 툴이 Hadoop이고, 구글에서 개발된 분산 처리 프레임워크인 ‘MapReduce’를 기반으로 제작됨
NoSQL은 기존의 RDB의 정형화된 데이터 형태에서 벗어난 데이터베이스의 총칭을 의미한다.
대표적인 3가지는 Key-Value, Document, wide-column 이다.
ETL은 Extraction Transform Loading의 약자로,
데이터를 추출하고 가공한 뒤 적재하는 일련의 과정을 의미한다.
하기 그림은 추출한 데이터를 데이터 웨어하우스에 저장하기까지의 과정이다.
데이터 레이크 (Data Lake)
: 다양한 형태와 경로에서 생성된 데이터를 한 곳에 가공 없이 그대로 저장하는 것
ex) 아마존 - S3
데이터 가져오기 (Data Ingestion)
: 데이터를 활용할 수 있는 형태로 저장하는 과정 (=전처리 과정)
데이터 웨어하우스 (Data Warehouse)
: '데이터 가져오기'가 완료된 데이터를 저장하는 장소
ex) 아마존 - Redshift / 구글 - BigQuery / IBM - Db2
데이터 마트 (Data Mart)
: '데이터 웨어하우스'의 하위 영역
데이터를 실제로 사용하는 부서의 레벨이나 관련 주제 위주로 접근할 수 있도록 가공한 시스템
커넥터 (Connector)
: '데이터 웨어하우스'의 데이터가 각 사용처로 흘러들어가 다양한 용도로 사용될 수 있도록 DB와 각종 어플리케이션을 연결하는 과정
ex) 실시간으로 품절된 상품을 고객이 구매하지 못하도록 표시하는 데에 사용
BI (Business Intelligence)
: 데이터를 정리하고 분석해, 비스니스 의사결정을 돕는 시각화 기술
Data에서 Insight를 도출하여 Value를 창출해내는 일련의 과정을 의미한다.
즉, 데이터에서 사업적 가치를 창출하는 것을 말한다.
ex) 아마존 - 고객의 구매정보를 이용한 고객 추천 서비스 제작 -> 매출 40% 향상