💡 빅데이터의 주요 역사에 대해서 설명한다2011년까지 → Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전2012년까지 → 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급2013년부터 → 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확충웹 서버
크로스 집계의 개념행과 열이 교차하는 부분에 숫자 데이터가 들어간 테이블사람이 다루기 쉽지만, 데이터베이스는 다루기 어려움새로운 행은 늘리기 쉽지만, 열은 늘리기 어려움행 방향으로만 증가하고, 열 방향으로는 증가하지 않는 테이블트랜잭션 테이블에서 크로스 테이블로 변환하
SQL로 데이터를 집계하는 경우, 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마(schema)로 정함스키마가 명확하게 정의된 데이터를 ‘구조화된 데이터(structured data)’라고 함기존의 데이터 웨어하우스에서는 데이터는 항상 구조화된 데이터로 축
Hive에 의한 구조화 데이터의 생성과 Presto에 의한 대화식 쿼리쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름(Hive와 Presto 결합)분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장다수의 텍스트 파일을 읽어 들여 가공하는 부
시계열 데이터 축적하기빅데이터 분석은 데이터를 구조화하는 것 부터 시작함압도적으로 많은 부분을 차지하는 것이 팩트 테이블팩트 테이블 작성의 두 가지 방법추가(append): 새로 도착한 데이터만을 증분으로 추가치환(replace): 과거의 데이터를 포함하여 테이블 전체