18일차 : 데이터 정제

Dev_HG·2020년 7월 21일
0

1. 데이터 정제

1. 데이터 정체 요청서 작성

  • 전환 시 발생한 오류를 해결하기 위한 데이터 정제 요청 내용을 작성
  • 정제 요청 내용에 가능한 해결 방안을 함께 작성하여 의사결정에 도움을 준다.
    => 작성 항목 : 정제ID, 정제 제목, 관련 테이블, 예상 처리건수

2. 데이터 정제 보고서 작성

  • 정제 요청서에 의해 정제된 원천 데이터를 확인하고 검증
  • 정제 결과를 확인 후 정제된 결과를 반영한 정제 보고서를 작성
  • 정제 결과서는 원천 데이터의 오류 데이터 원인관 대응 방안을 함께 작성
    => 보고서 작성 원칙 : 정제ID, 정제건수,전환결과,미처리 사유, 대응 방안

2. 데이터 품질 분석

1. 원천 데이터 품질 분석

  • 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있다.

2. 목적 데이터 품질 분석

  • 원천 데이터와 목적 데이터베이스의 속성(Column)간 대응 관계의 정확한 표현을 위해 데이터 레이아웃을 정확하게 파악하고 품질 검증을 진행

3. 데이터 품질관리

  • 조직 내 외부의 정보시스템 및 데이터베이스 사용자의 기대를 만족시키기 위한 지속적인 데이터 및 데이터 구조를 개선하기 위한 활동이다.
  • 데이터 품질 요소는 데이터 값(Value), 데이터 구조(Data Hierarchy), 관리 프로세스(Data Management Process)가 있다.

3. 오류데이터 측정

1. 오류 데이터 측정

  • 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리한다.
  • 정량적 측정을 통해 나온 결과를 토대로 오류 관리 목록에 기재한다.

1. 정상 데이터

  • 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 세분화
  • 정상 데이터의 수량을 정확히 측정 및 기록

2. 오류 데이터

  • 정합성 기준을 근거로 업무별 오류 위치와 유형을 파악
  • 오류 데이터의 수량을 측정하여 오류 관리 목록에 기재

2. 오류 원인 파악/ 정제 여부 결정

  • 오류 목록의 심각도, 상태를 참조하여 원천 데이터의 정제 또는 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정

1. 심각도

  • 상 : 데이터 이행을 진행할 수 없게 만드는 오류
  • 중 : 데이터 이행 전반에 영향을 미치는 오류
  • 하 : 데이터 이행의 영향을 미치지 않는 오류, 상황에 맞지 않는 용도 및 배치 오류

2. 상태

  • 열린 : 오류가 보고되었지만 아직 분석되지 않은 상태
  • 할당된 : 수정을 위해 오류를 개발자에게 할당한 상태
  • 수정된 : 개발자가 오류를 수정한 상태
  • 종료된 : 재 테스트 시 오류가 발견되지 않은 상태, 수정된 오류 미 충족 시 오류 상태 Open 변경
  • 연기된 : 낮은 우선순위로 오류 수정을 연기한 상태
  • 분류된 : 프로젝트 내 오류가 아니라고 판단된 상태
profile
꾸준함

0개의 댓글