1-3 데이터 수집 및 저장 계획

김희영·2026년 4월 15일

빅데이터분석기사

목록 보기
4/4

1.데이터 수집 및 전환

1-1. 데이터 수집

  • 기초 데이터 수집 수행 절차
    • 비즈니스 도메인 정보 수집 : 전문가 인터뷰
    • 분석기획서 기반 도메인, 서비스 이해 : 비즈니스, 원천데이터 습득 현황
    • 수집 데이터 탐색 : 수집 데이터 선정, 데이티터 위치, 유형, 수집법, 비용
    • 기초 데이터 수집 : 체크리스트 활용
  • 데이터 수집 시스템 구축 절차
    • 수집 데이터 유형 파악
    • 수집 기술 결정
    • 아키텍처 수립
    • 하드웨어 구축
    • 실행환경 구축

비즈니스 도메인과 원천 데이터 정보 수집

  • 비즈니스 도메인 정보 : 비즈니스 모델 / 용어집 / 프로세스로부터 관련 정보 습득, 전문가 인터뷰데이터 종류 / 유형 / 특징 정보 습득
  • 원천 데이터 정보 : 수집 가능성 / 보안 / 정확성 / 수집 난이도 / 수집 이용등 기초 자료 수집

내외부 데이터 수집

구분종류수집 주기수집 방법
내부 데이터서비스 시스템,네트워크 및 서버 장비, 마케팅 데이터실시간 수집, 분석조직 내부 협의, 인터페이스 생성, 파일 시스템/DBMS/센서에서 수집
외부 데이터소셜데이터, 특정 기관 데이터, M2M(사물간 통신) 데이터, LOD(웹 무료 공계 연계 데이터)일정 주기외부 조직과 협약, 인터넷으로 연결, DBMS 데이터/웹 페이지/소셜데이터/문서에서 수집

데이터 수집 기술

  • 데이터 유형별 수집 기술

    • 정형 데이터
      • ETL
      • FTP
      • API
      • DBToDB (DB에서 DB로 데이터 전송)
      • 스쿱 (하둡-RDBMS간 데이터 전송)
    • 비정형 데이터
      • 크롤링
      • RSS (XML기반 정보 배포 프로토콜)
      • OPEN API
      • 척와 (분산 시스템에서 데이터 수집, 하둡 시스템에게 분석 기능 제공)
      • 카프카 (분산 스트리밍 플랫폼 기술)
    • 반정형 데이터
      • 플럼 (분산환경용 로그데이터 수집,전송,분석 기능 제공)
      • 스크라이브(다수의 서버에서 데이터 수집, 분산 시스템에 저장)
      • 센싱 (센서 데이터를 네트워크로 수집)
      • 스트리밍 (미디어 데이터 실시간 수집)
  • ETL

    • 여러 데이터 소스에서 데이터 웨어하우스, 마트, 통합등의 응용시스템 위한 데이터 구축 기술
  • 추출 / 변환 / 적재 3단계로 구성

  • FTP

    • 대량 파일 네트워크 전송 서비스
    • TCP/IP 위에서 동작
  • 아파치 스쿱

    • 관계형 데이터 스토어간 데이터 전송용 도구 (RDBMS -> 하둡)
    • 정형 데이터 처리
    • 적재 과정 자동화 및 병렬처리로 동작
    • Bulk import 지원 / 데이터 전송 병렬화 / Direct input 제공 / 프로그래밍 방식의 데이터 인터랙션
  • 플럼
    - 로그 데이터 수집, 집계, 이동 시키는 분산 서비스 제공

    • 스트리밍 데이터 흐름 기반
    • 웹서버 -> 소스 -> 채널-> 싱크 -> HDFS
    • 신뢰성 / 확장성 / 효율성
  • 스크래피

    • 웹 사이트 크롤링, 구조화 데이터 수집 도구
    • API로 데이터 추출
    • 파이썬 기반 / 단순 스크랩 과정 / 다양한 부가 요소

1-2. 데이터 유형 및 속성 파악

데이터 수집 세부 계획 작성
1. 세부 계획서 작성 (유형/위치/보관법/수집주기/이관절차/비용)
2. 데이터 적정성 검증 방식 수립 및 세부 게획 반영
3. 데이터 재수집 및 가공

수집 데이터 형태

  • HTML (텍스트/태그/스크립트로 구성)
  • XML (엘리먼트/속성/처리명령/엔티티/주석/CDATA 섹션으로 구성)
  • JSON (수/문자열/배열/객체로 구성)

데이터 저장 방식

  • 파일 시스템
  • RDBMS
  • 분산처리 DB

데이터 적절성 검증

  • 누락 점검
  • 소스데이터와 비교
  • 정확성 점검
  • 보안 사항 점검
  • 저작권 점검
  • 대량 트래픽 발생 여부 검증

1-3. 데이터 변환

데이터 변환 :데이터를 다른 형식의 표현 방식으로 변형

  • 종류
    • 비정형 -> 정형 (관계형 DB)
    • 수집 데이터 -> 분산파일시스템 (HDFS)
    • 주제별, 시계열적 저장 (데이터 웨어 하우스)
    • 키/값 형태 (NoSQL)
  • 데이터 변환 수행 자료: 수집 계획서,수집 솔루션 매뉴얼, 변환 솔루션, 하둡 오퍼레이션 매뉴얼, SW 아키텍처 개념도 등

DB 구조 설계

  • 수집 데이터 저장용 DB 설계
  • DBMS 구축여부 결정> 저장 DB 결정 > DBMS 설치 > 테이블 구조 설계

비정형/반정형 데이터 변환

  • 데이터 전처리 전 데이터를 구조적 형태로 전환, 저장
  • 수집 데이터 속성 구조 파악 > 수집 절차에 대한 수행코드 정의 > 저장 프로그램 작성 > DB 저장

융합 DB 설계

  • 데이터 유형,의미 파악으로 융합 DB 설계
  • 요구사항 분석 > 데이터 표준화, 모델링 수행 (개념적, 논리적 설계)

-> 분석용이성을 위해 정형으로 변환, 자동화에 용이하게 구축

profile
내는 반드시 엄청난 개발자가 되고 말것어

0개의 댓글