18일차 : 데이터 전환

Dev_HG·2020년 7월 21일
0

1. 초기 데이터 구축

1. 구축 전략 수립

  • 대량의 데이터를 전환 수행 시 신속하고 안정적인 데이터 전환을 위한 체계적인 초기 데이터 구축 전략을 수립한다.
  • 초기 데이터 구축 : 데이터 결과 분석을 통해 대상의 기본 정보 및 기초자료를 확보
  • 데이터 복구 방안 마련 : 기존 데이터 분석을 통한 기초자료 구축방안 제시
  • DB 구축 지침 제시 : 기초 데이터와 대표 값의 비교, DB 구축을 위한 지침서 제시

2. 초기 데이터 구축 대상 파악

  • 초기 데이터 구축을 위한 대상을 식별하고 대상을 목록화 한다.

1. 대상지역 기초 현황

  • 경기도 면적 및 인구
  • 경기도 인접 지역 영향도

2. 미세먼지 농도

  • 미세먼지 농도 수준, 주요 특징

3. 미세먼지 저감조치 현황

  • 미세먼지 관련 교통통제 빈도
  • 국가별 협력계획

3. 초기 데이터 구축 범위 확정

  • 업무 협의를 통해 초기 데이터 구축 범위를 확정
    [기준 정보]
  • 회계 코드 : 계열사 내 회계 코드를 기준으로 영업시스템에 매핑하여 로드
  • 계정 코드 : 포탈 내 계정 코드를 기준으로 조직개편 등에 매핑하여 로드
  • 예산 코드 : 법인 내 예산 정보를 기준으로 전자결재 시스템에서 예산 정보를 매핑하여 로드

4. 초기 데이터 구축 시 세부 고려사항

  • 데이터 이관 시 업무 중단을 최소화하고 안정성을 확보할 수 있는 방안을 마련
  • 데이터 이관 정합성 검증을 통해 오류 방지 방안을 제시
  • 이관 완료 후 데이터의 품질 검증(전후 비교)을 실시하고 결과를 제시
  • 개인정보에 해당하는 데이터는 개인정보보호법과 관련 기준에서 정하는 기준에 따라 암호화하여 적용

2. ETL

1. ETL(Extraction, Transformation, Loading)의 개념

  • 조직 내 외부의 복수의 출처들로부터 분석을 위한 저장소로 데이터를 이동시키는 프로세스를 의미
  • 원천 시스템(Source System)으로부터 데이터를 추출하고 변환하는 작업을 거쳐서 목적 시스템(Target System)으로 전송 및 로딩 한다.

2. ETL 프로세스

  • ETL 데이터 전환을 위한 수행 단계별 프로세스가 존재

3. 파일 처리 기술

1. 파일 처리 기술의 개념

  • 파일 처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법이다.
  • 파일을 하드 디스크에 저상 시, 기억공간을 효율적으로 사요앟고 자료의 탐색을 쉽게 한다.

2. 파일 처리 기술의 유형

1. 순차 파일(Sequential File)

  • 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식이다.
  • 변동 사항이 크지 않고 기간별로 일괄 처리를 주로 하는 경우에 적합하다.
  • 순차 접근이 가능한 자기 테이프에서 사용된다.

1. 장점

  • 기록 밀도가 높아 기억공간을 효율적으로 사용
  • 매체 변환이 쉽고 어던 매체에도 적용 가능하고 처리속도가 빠름

2. 단점

  • 파일에 신규 레코드 삽입/삭제 시 파일 전체 복사로 시간소요가 큼
  • 데이터 검색 시 순차 검색으로 인한 검색 효율성 저하

2. 색인 순차 파일(Indexed Sequential File)

  • 레코드들을 키(Key)값 순으로 정렬시켜 기록하고 레코드의 키 항목 색인(Index)을 구성하는 방식
  • 순차(Sequential) 처리와 랜덤(Random) 처리가 모두 가능하다.
  • 색인을 이용한 순차적인 접근 방법을 제공하여 ISAM(Index Sequential Access Method)이라고 한다.
  • 레코드 참조 시 색인 탐색 후 색인이 가리키는 포인터(주소)를 사용하여 직접 팜조한다.

장점

  • 목적기반 순차 처리, 랜덤 처리 가능
  • 레코드 삽입, 삭제, 갱신 용이

단점

  • 색인 구역과 오버플로 구역 구성위한 추가 공간 필요
  • 빈번한 파일 추가, 삭제 시 효율 저하

3. 직접 파일(Direct File)

  • 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장 공간에 기록하는 파일이다.
  • 랜덤 파일(Random File), DAM(Direct Access Method) 파일이라고도 한다.
  • 레코드는 해시 함수에 의해 계산된 물리적 주소를 통해 접근

장점

  • 물리적 주소를 통해 각 레코드에 직접 접근하거나 기록 가능
  • 평균 접근시간(Acess Time)내 접근 기능

단점

  • 레코드 주소 변환 과정 필요로 추가 시간 소요
  • 별도의 기억공간 확보 필요
  • 기억공간의 효율 저하 가능성 존재
profile
꾸준함

0개의 댓글