1.데이터 수집 및 전환
1-1. 데이터 수집
- 기초 데이터 수집 수행 절차
- 비즈니스 도메인 정보 수집 : 전문가 인터뷰
- 분석기획서 기반 도메인, 서비스 이해 : 비즈니스, 원천데이터 습득 현황
- 수집 데이터 탐색 : 수집 데이터 선정, 데이티터 위치, 유형, 수집법, 비용
- 기초 데이터 수집 : 체크리스트 활용
- 데이터 수집 시스템 구축 절차
- 수집 데이터 유형 파악
- 수집 기술 결정
- 아키텍처 수립
- 하드웨어 구축
- 실행환경 구축
비즈니스 도메인과 원천 데이터 정보 수집
- 비즈니스 도메인 정보 : 비즈니스 모델 / 용어집 / 프로세스로부터
관련 정보 습득, 전문가 인터뷰로 데이터 종류 / 유형 / 특징 정보 습득
- 원천 데이터 정보 : 수집 가능성 / 보안 / 정확성 / 수집 난이도 / 수집 이용등 기초 자료 수집
내외부 데이터 수집
| 구분 | 종류 | 수집 주기 | 수집 방법 |
|---|
| 내부 데이터 | 서비스 시스템,네트워크 및 서버 장비, 마케팅 데이터 | 실시간 수집, 분석 | 조직 내부 협의, 인터페이스 생성, 파일 시스템/DBMS/센서에서 수집 |
| 외부 데이터 | 소셜데이터, 특정 기관 데이터, M2M(사물간 통신) 데이터, LOD(웹 무료 공계 연계 데이터) | 일정 주기 | 외부 조직과 협약, 인터넷으로 연결, DBMS 데이터/웹 페이지/소셜데이터/문서에서 수집 |
데이터 수집 기술
1-2. 데이터 유형 및 속성 파악
데이터 수집 세부 계획 작성
1. 세부 계획서 작성 (유형/위치/보관법/수집주기/이관절차/비용)
2. 데이터 적정성 검증 방식 수립 및 세부 게획 반영
3. 데이터 재수집 및 가공
수집 데이터 형태
- HTML (텍스트/태그/스크립트로 구성)
- XML (엘리먼트/속성/처리명령/엔티티/주석/CDATA 섹션으로 구성)
- JSON (수/문자열/배열/객체로 구성)
데이터 저장 방식
데이터 적절성 검증
- 누락 점검
- 소스데이터와 비교
- 정확성 점검
- 보안 사항 점검
- 저작권 점검
- 대량 트래픽 발생 여부 검증
1-3. 데이터 변환
데이터 변환 :데이터를 다른 형식의 표현 방식으로 변형
- 종류
- 비정형 -> 정형 (관계형 DB)
- 수집 데이터 -> 분산파일시스템 (HDFS)
- 주제별, 시계열적 저장 (데이터 웨어 하우스)
- 키/값 형태 (NoSQL)
- 데이터 변환 수행 자료: 수집 계획서,수집 솔루션 매뉴얼, 변환 솔루션, 하둡 오퍼레이션 매뉴얼, SW 아키텍처 개념도 등
DB 구조 설계
- 수집 데이터 저장용 DB 설계
- DBMS 구축여부 결정> 저장 DB 결정 > DBMS 설치 > 테이블 구조 설계
비정형/반정형 데이터 변환
- 데이터 전처리 전 데이터를 구조적 형태로 전환, 저장
- 수집 데이터 속성 구조 파악 > 수집 절차에 대한 수행코드 정의 > 저장 프로그램 작성 > DB 저장
융합 DB 설계
- 데이터 유형,의미 파악으로 융합 DB 설계
- 요구사항 분석 > 데이터 표준화, 모델링 수행 (개념적, 논리적 설계)
-> 분석용이성을 위해 정형으로 변환, 자동화에 용이하게 구축