[DataEngineering] Relational Processing

Zoe·2022년 5월 13일
0

데이터공학

목록 보기
4/9

Relational Processing


✅ Relational Data

  • selection, top-K

  • buffer : 우선순위 큐, 힙

  • join

  • fact table : 구매기록

  • dimension table : fact table을 설명하기 위함. 부가적인 테이블

  • customer의 key만 저장하는 것

  • forien key

  • join : decision support system 에서 많이 쓰임

  • join을 맵리듀스로 어떻게 만들지

1️⃣ example

  • 코드 테이블 : 물건 종류코드,
  • 물건 테이블 : 물건ID, 가격, 종류코드(외래키)
  • 이너조인, 아우터조인

✅ map

  • relation_a, relation_b
  • 만나는 것은 리듀스에서 만나는 것
  • 만날 수 있도록 맵의 아웃풋키를 조정해줘야 함.
  • 물건 종류 코드를 맵의 아웃풋키로.
  • 조인키를 맵의 아웃풋 키로

✅ reduce

  • append 시키는 것.
  • 합치는 것과 개념이 다름
  • add를 시켜서 아웃풋으로 만드는 것

✅ Pseudo code

  • 리듀스가 문제임
  • 같은 키를 가지는 밸류들이 모여있음
  • 순서가 어떻게 될지는 모름. 디폴트가 있어서 그 기준이 이루어져 있음.
  • 임시 버퍼를 만들어.
  • 밸류가 B로 시작하면 테이블 B에서 왔다는 것임. -> table B에 해당하는 정보를 집어넣음.
profile
iOS 개발자😺

0개의 댓글