양질의 데이터를 판별하는 방법 - 3

Jimi Choi·2023년 9월 3일
0

데이터

목록 보기
3/5
post-custom-banner

3. 관계형 데이터베이스인가?

빅데이터의 특성 3V

  1. Velocity(속도)
  2. Volume(양)
  3. Variety(다양성)
    • 활용하기 좋은 데이터들은 지키고 있는 공통의 형식이 분명 있다

관계형 데이터베이스

1) 관계형 데이터베이스의 정의

  • 데이터를 행과 열의 테이블 형태로 저장하여 서로 관계있는 데이터를 관리하는 방식

2) 형식이 중요한 이유

  • 하나의 데이터만을 이용할 것이라면 상관없지만, 보유한 다른 데이터와 유기적으로 연결하여 더 넓은 시야를 가질 수 있도록 데이터를 분석하려면 관계형 데이터베이스 양식을 따라야함

보유한 데이터를 테이블이라 부를 수 있는가

어떻게 관계형 데이터베이스 양식을 지키고 있는지 파악하는가?

  • 테이블: 관계형 데이터베이스에서 테이블의 기본 단위
  • 테이블의 구성 조건을 지키고 있다면 그것은 곧 관계형 데이터베이스의 양식을 지키고 있다는 것을 의미

1) 키의 존재

  • 모든 데이터에 키가 존재해야함
    • 키: 데이터의 속성(열) 중 식별자로 이용 가능한 속성
    • 키가 없다면 데이터가 어떤 개인 혹은 상황을 의미하는지 알 수 없음
    • 데이터에 키가 없다면 다른 데이터 테이블과 결합을 하는게 불가능
    • 특정하게 식별할 수 없다는 이유 때문임

2) 유일성, 무결성

  • 키로 추정되는 속성이 존재한다면, 해당 키는 유일무이해야함
    • 유일성: 하나의 키가 하나의 식별 값을 정확히 식별할 수 있을때
    • 무결성: 데이터에서 키값이 비어있거나 중복되지않아야함

💡 최종적으로 양질의 데이터를 판별하기 위해 해야할 것은 키의 후보군을 찾고 키의 유일성과 무결성을 만족시키고 있는지 보면 됨


https://yozm.wishket.com/magazine/detail/1096/

post-custom-banner

0개의 댓글