데이터 처리

아따맘마·2020년 11월 10일
0

빅데이터

목록 보기
4/9

데이터 처리

데이터 분서은 통계를 기반으로 하지만, 통계 지식과 복잡한 가정이 상대적으로 적은 실용적인 학문

  • legacy : 예전부터 사용해오던 기술, 소프트웨어 등을 뜻한다. 이들은 새로운 것으로 대체가 가능하다.
  • ER : 데이터 모델 중 하나.
  • staging : 데이터 원천에서 받아들인 데이터를 확인. 어떠한 데이터가 저장됬는지 확인하는 구간. 아무런 변화 작업을 실행하지 않는다.
  • ODS : 데이터에 대한 품질을 테스트. 부족한 점이 있다면 cleaning 작업을 실시.(데이터 전처리)
  • DW : DW에 한번 쓰면 수정이 불가능하다. 읽기만 가능. 테이블 형태로 계속 축적한다.
  • Data mart : 예를 들자면, 한 부서에서의 데이터 웨어하우스를 뜻한다. 특정 부서의 목적에 필요한 데이터를 DW에서 추출하여 쌓아둔다.

데이터 이용 흐름

실무 업무에서 데이터의 흐름을 보면, 기업에서는 기존 존재하던 데이터는 DW나 Data mart에서 가져와 사용한다. 그런데 만약 없다면?
legacy를 통해 StagingODS를 거쳐 데이터를 가져온다. StagingODS를 거치는 이유는 legacy에 직접적으로 접근하여 데이터를 가져오면 위험하기 때문이다.

데이터 가공

  • 데이터 마이닝 : 데이터에서 규칙이나 패턴을 분석하여 가치있는 정보로 추출하는 과정. 요약변수, 파생변수같은 정보를 산출한다.
  • 데이터 정형화 : 정형화 데이터가 아닌 비정형 데이터같은 경우에는 정형화하여 처리해야 한다. 텍스트 데이터같은 경우 텍스트 마이닝을 거친다.
  • 관계형 데이터 : 사회 신경망 분석을 거친다.

ER

ER은 개체, 속성, 관계로 이루어져 있다.

  • 개체(Entity) : 개체란 간단히 말해서 여러 정보(속성)이 겹치지 않는 오직 단 한개의 객체를 말한다. 예를 하나 들어보자.
    '교수님'라는 집단이 있다. 이 '교수님'은 전공, 이름, 나이 등 여러 정보들을 가지고 있을 것이다. 이 다양한 정보들을 갖고 있는 한 '교수님'이 다른 '교수님'과 겹치지 않는다면 개체라고 할 수 있다.
    이 개체들의 집합을 Entity type이라고 한다. Entity type는 ER 데이터 모델에서 네모로 표기한다.

  • 속성(Attribute) : 개체에서 잠깐 나왔지만, 개체를 설명할 수 있는 정보들을 말한다. 위 '교수님'이라는 Entity type에서 속성은 전공, 이름, 나이 등이다.
    속성은 ER 데이터 모델에서 원으로 표기한다.

  • 관계(Relation) : 여러 Entity type간에 맺는 관계를 뜻한다. 예를 들어, '교수님'이라는 Entity type와 쉽게 대응되는 '학생'이라는 또 다른 Entity type를 만들어 보자. 이 Entity type도 물론 여러 속성을 포함한다. 그럼 이 '학생'과 '교수님'이 맺는 관계는 '수업', '강의' 등등이 있을 수 있다. 이러한 관계들은 개체처럼 Relation tpye로 묶을 수 있다. ER 데이터 모델에서 마름모로 표기한다.

profile
늦게 출발했지만 꾸준히 달려서 도착지점에 무사히 도달하자

0개의 댓글