데이터 분서은 통계를 기반으로 하지만, 통계 지식과 복잡한 가정이 상대적으로 적은 실용적인 학문
legacy
: 예전부터 사용해오던 기술, 소프트웨어 등을 뜻한다. 이들은 새로운 것으로 대체가 가능하다.ER
: 데이터 모델 중 하나.staging
: 데이터 원천에서 받아들인 데이터를 확인. 어떠한 데이터가 저장됬는지 확인하는 구간. 아무런 변화 작업을 실행하지 않는다.ODS
: 데이터에 대한 품질을 테스트. 부족한 점이 있다면 cleaning 작업을 실시.(데이터 전처리)DW
: DW에 한번 쓰면 수정이 불가능하다. 읽기만 가능. 테이블 형태로 계속 축적한다.Data mart
: 예를 들자면, 한 부서에서의 데이터 웨어하우스를 뜻한다. 특정 부서의 목적에 필요한 데이터를 DW에서 추출하여 쌓아둔다.실무 업무에서 데이터의 흐름을 보면, 기업에서는 기존 존재하던 데이터는 DW나 Data mart에서 가져와 사용한다. 그런데 만약 없다면?
legacy
를 통해 Staging
과 ODS
를 거쳐 데이터를 가져온다. Staging
과 ODS
를 거치는 이유는 legacy
에 직접적으로 접근하여 데이터를 가져오면 위험하기 때문이다.
데이터 마이닝
: 데이터에서 규칙이나 패턴을 분석하여 가치있는 정보로 추출하는 과정. 요약변수, 파생변수같은 정보를 산출한다.데이터 정형화
: 정형화 데이터가 아닌 비정형 데이터같은 경우에는 정형화하여 처리해야 한다. 텍스트 데이터같은 경우 텍스트 마이닝을 거친다.관계형 데이터
: 사회 신경망 분석을 거친다.ER은 개체
, 속성
, 관계
로 이루어져 있다.
개체(Entity)
: 개체란 간단히 말해서 여러 정보(속성)이 겹치지 않는 오직 단 한개의 객체를 말한다. 예를 하나 들어보자.
'교수님'라는 집단이 있다. 이 '교수님'은 전공, 이름, 나이 등 여러 정보들을 가지고 있을 것이다. 이 다양한 정보들을 갖고 있는 한 '교수님'이 다른 '교수님'과 겹치지 않는다면 개체라고 할 수 있다.
이 개체들의 집합을 Entity type
이라고 한다. Entity type
는 ER 데이터 모델에서 네모로 표기한다.
속성(Attribute)
: 개체에서 잠깐 나왔지만, 개체를 설명할 수 있는 정보들을 말한다. 위 '교수님'이라는 Entity type에서 속성은 전공, 이름, 나이 등이다.
속성은 ER 데이터 모델에서 원으로 표기한다.
관계(Relation)
: 여러 Entity type간에 맺는 관계를 뜻한다. 예를 들어, '교수님'이라는 Entity type와 쉽게 대응되는 '학생'이라는 또 다른 Entity type를 만들어 보자. 이 Entity type도 물론 여러 속성을 포함한다. 그럼 이 '학생'과 '교수님'이 맺는 관계는 '수업', '강의' 등등이 있을 수 있다. 이러한 관계들은 개체
처럼 Relation tpye
로 묶을 수 있다. ER 데이터 모델에서 마름모로 표기한다.