이번 글은

제1장. 빅데이터의 이해

빅데이터(Big Data)

  • 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 데이터 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술(빅데이터 분석 및 시각화 기술도 포함한 개념으로 이해)

빅데이터의 주요 특징(V6?)

  • Volume(규모), Variety(다양성), Velocity(처리속도), Value(가치), Veracity(정확성), Validity(유효성), Volatility(휘발성)

빅데이터의 유형

  • 정형(Structured) : 정해진 규칙에 맞게 저장된 데이터, 구조화되어 있음
  • 반정형(Semi-structured) : 어의적 요소(단어, 말)를 분리시키고 태그나 다른 마커를 포함
  • 비정형(Unstructured) : 데이터의 구조와 형태가 데이터마다 다르고 정형화되지 않음

빅데이터의 가치

  • 사회경제적 가치, 비즈니스 모델 혁신, 비용 절감, 수익 증대, 사회적 비용 감소(의료 및 보건 분야 등), 산업 생산성 및 효율성 향상

빅데이터 산업

  • 인프라(단말, 장비, 소프트웨어 공급자) 및 서비스(빅데이터 서비스 공급업자, 유·무선 통신 서비스 업자)

빅데이터 비즈니스 모델

  • 빅데이터 서비스 제공자가 단말, 장비, 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법

빅데이터 조직

  • 시스템 엔지니어, 데이터베이스 엔지니어, 소프트웨어 엔지니어 등으로 데이터 분석팀 및 시스템 운영팀 구성

빅데이터 분석 직무

  • NCS의 정의 : 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형, 비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

빅데이터 요소 기술

  • 데이터 수집, 저장, 공유, 처리, 분석 및 시각화

빅데이터 플랫폼

  • 다양한 데이터 소스에서 수집된 데이터를 처리하고 분석해서 지식을 추출하고 지능화된 서비스를 제공하는 데 필요한 IT환경

데이터베이스(Database)

  • 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합(Stored, Intergrated, Shared)

데이터베이스 관리 시스템(DBMS; Database Management System)

  • 다수의 컴퓨터 사용자들이 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어

인공지능(AI; Aritificial Intelligence)

  • 컴퓨터를 사용하여 인간의 지능을 모델링하는 기술
  • 핵심요소 : 하드웨어, 소프트웨어, 프로그래밍 언어, 모델 형태, 응용 분야

데이터 마이닝(Data Mining)

  • 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법으로 분류, 군집화, 연관성 분석, 연속성 분석 및 예측 분야에 활용

머신러닝(기계학습, Machine Learning)

  • 인공지능의 한 분야로서 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술 개발
  • 지도 학습 : 입력과 출력을 연관시키는 관계 학습(분류, 회귀 분석)
  • 비지도 학습 : 출력값 없이 입력값만으로 스스로 규칙성을 찾아냄(클러스터링, 차원축소)
  • 강화 학습 : 보상을 이용하여 학습(실시간 의사결정, 인공지능 게임)

딥러닝(Deep Learning)

  • 머신러닝과 신경망의 한 분야로서 여러 개의 은닉층을 가진 심층 신경망을 기반으로 하는 학습 방법

개인정보

  • 이름, 주민등록번호에서 DNA에 이르기까지 그것을 이용해 특정 개인을 식별할 가능성을 내포한 데이터
  • 관련 법령 : 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 위치정보의 보호 및 이용 등에 관한 법률, 정보통신 기반 보호법, 국가정보화 기본법, 전자정부법, 개인정보보호법 등

개인정보 활용을 위한 비식별조치 가이드라인

  • 비식별 조치 : 데이터 내에 포함된 개인정보에 대한 활용 및 비식별 조치 후 활용 가능 여부에 대한 부분이 국내 관계부처에서 제정한 ‘개인정보 비식별조치 가이드라인’을 준수하고 있는지 확인
  • 가이드라인 : 공공정보 개방·공유에 따른 개인정보보호지침, 개인정보 비식별화에 대한 적정성 자율평가 안내서, 빅데이터 개인정보보호 가이드라인, 빅데이터 활용을 위한 개인정보 비식별화 기술 활용 안내서 준수

제2장. 데이터 분석 계획

작업분할구조도(WBS; Work Breakdown Structure)

  • 프로젝트 관리와 시스템 공학 분야에서 프로젝트의 더 작은 요소로 분해시킨 Deliverable 지향 분업 구조
  • 프로젝트 팀이 프로젝트 목표를 달성하고 필요한 인도물을 산출하기 위해 실행하는 작업을 인도물 중심의 계층 구조로 세분해 놓은 것
  • 작성 절차 : 프로젝트 소요 비용 배분 → 프로젝트 WBS 수립 → 프로젝트 업무분장 계획 및 배분

빅데이터 분석 프로세스

  • 5단계(NCS) : 도메인 이슈 도출 → 분석목표 수립 → 프로젝트 계획 수립 → 보유 데이터자산 확인 → 빅데이터 분석결과 시각화
  • 6단계 : 문제인식 → 관련 연구조사 → 모형화(변수선정) → 자료수집(변수측정) → 자료분석 → 분석결과 제시

빅데이터 분석 5단계 절차

  • 데이터 수집 → 정제 → 적재 → 분석 → 시각화

빅데이터 분석을 위한 조직의 성숙도

  • 도입 → 활용 → 확산 → 최적화

데이터 수집 시 고려사항

  • 분석대상 비즈니스 이해, 데이터 수집 대상 및 유형, 데이터 위치, 수집 방법, 획득 비용 등

데이터 분석 관련 문서화

  • 빅데이터 요건 정의서, 분석목표정의서, WBS, 데이터품질보고서, 데이터 분석 보고서 등

빅데이터 분석목표정의서

  • 데이터 원천 파악(데이터 정보, 입수 난이도), 분석접근 방안, 데이터 분석모형 적용 가능성 판단, 성과평가 기준(정성 및 정량적 평가기준) 마련 등

빅데이터 주요 분석 기술

  • 회귀, 분류, 연관성, 머신러닝, 감정, 소셜 네트워크, 유전 알고리즘 등

빅데이터 분석 도구

  • Hadoop, MapReduce, R, Presto, BigQuery, Summingbrid, Esper 등

빅데이터 처리 시스템

  • 데이터 처리를 통하여 유용한 정보를 찾고 데이터가 포함하고 있는 지식을 찾아내며, 이러한 정보를 찾기 위한 데이터 가공 및 분석과정 전반을 지원하는 시스템
  • 주요 고려사항 : 데이터 양, 데이터 발생속도, 데이터 형태, 새로운 처리 기술 등
  • 요구사항 : 결함허용, 저비용, 기존 시스템 연계성 등

데이터 확보 계획 수립 절차

  • 목표 정의 → 요구사항 도출 → 예산안 수립 → 계획 수립

WBS(Work Breakdown Structure, 작업분할구조도) 작성 절차

  • 데이터 분석과제 정의 → 데이터 준비 및 탐색 → 데이터분석 모델링 및 검증 → 산출물 정리

데이터 적절성 점검 항목

  • 데이터 누락, 소스 데이터와의 비교, 데이터 정확성, 보안 점검, 저작권 점검, 대량 트래픽 발생 점검 등

데이터 저장 시스템 설계를 위한 요구사항

  • 요구사항 수집, 요구사항 분석(데이터 및 인터페이스 등), 요구사항 명세(데이터 요구사항 명세서 작성), 요구사항 검증 등

제3장. 데이터 수집 및 저장 계획

데이터 수집 시 고려사항

  • 데이터 분석의 목적, 데이터 수집 가능성, 데이터 보안, 데이터 정확성, 수집 난이도 및 비용 고려

데이터 위치

  • 내부 데이터 : 대부분 정형 데이터로 존재, 조직 내부의 데이터 담당자와 수집 주기 및 방법 협의, 수집 난이도가 낮음
  • 외부 데이터 : 대부분 반정형 및 비정형 형태로 존재, 특정 기관의 담당자와 협의, 전문업체를 통해 수집, 수집 인터페이스 협의, 수집 난이도가 높음

데이터 수집 절차

  • 데이터 유형 파악 → 수집기술 검토 → 수집 솔루션 확인 → 하드웨어 구축 → 실행환경 검토

데이터 수집 기술

  • 정형 데이터 : 대용량 데이터 전송 솔루션 이용(Sqoop, Hiho 등)
  • 반정형 데이터(로그 데이터 등) : 로그 파일 수집기 이용(Flume, Scribe, Chukwa 등)
  • 비정형 데이터 : 크롤링, Open API, RSS 이용

데이터 수집 방법

  • Crawling : 외부 데이터의 HTTP 수집 방법, SNS·뉴스·웹 문서 정보 수집
  • Open API : 웹을 운영하는 주체가 정보·데이터를 제공하기 위해 개발자와 사용자에게 공개하는 수집 기술
  • FTP : 인터넷 서버로부터 각종 파일 송·수신
  • RSS : XML 기반 콘텐츠 배급 프로토콜을 이용한 수집
  • Streaming : 인터넷 음성, 오디오, 비디오 데이터를 실시간으로 수집
  • Log Aggregator : 웹서버 로그, 웹 로그, 트랜잭션 로그, DB 로그 등 각종 로그 데이터 수집. Chukwa, Flume, Scribe 등
  • RDB Aggregator : 관계형 DB에서 정형 데이터 수집, HDFS, HBase 등의 NoSQL에 저장. Sqoop, Direct JDBC / ODBC 등

웹에서의 데이터 수집 방법 : HTML, XML, JSON 등 이용

  • Web Crawling : 자동화 Bot인 Web Crawler가 정해진 규칙에 따라 복수의 웹페이지 자료수집
  • Web Scraping : 웹사이트의 원하는 부분에 위치한 정보를 자동 추출 및 수집
  • Web Mining : 인터넷을 이용한 웹서비스의 다양한 패턴을 발견하기 위해 사용되는 기술

스크립트 언어를 이용한 데이터 수집

  • Python, Ruby 등 이용

데이터 수집 시 관련 내규 검토

  • 개인정보보호 업무처리 지침서, 보안 약점 및 개인정보 사전 제거, 보안 가이드 검토

데이터 적절성 검증

  • 데이터 누락 및 결측(데이터 재수집), 데이터 정확성, 개인정보 유무 파악, 데이터 저작권 및 법률적 문제 검토

빅데이터 시스템 운영 업무

  • 시스템 구성 및 변경 관리, 운영 상태 관리, 성능 관리, 보안 관리

데이터 수집 불가의 원인 및 대처 방안

  • 시스템 오류 : 시스템 구성 및 프로그램 수정, 네트워크 확인
  • 보안 : 암호화된 데이터의 경우 인증서 이용, 폐쇄망 데이터의 경우 사전 관리자 승인
  • 저장 용량 : 시스템 용량 산정 재검토, 저장 공간 확보

데이터 수집 보고서의 주요 내용

  • 데이터 유형, 데이터 위치, 데이터 저장 시스템, 수집 기술, 수집 비용

데이터 유형

  • 정형 데이터 : 정형화된 스키마 구조를 갖고 있으며 스프레드 시트, csv 형태의 데이터
  • 반정형 데이터 : 내부에 데이터 구조에 대한 메타 정보를 갖고 있으며 HTML, XML, JSON, 로그 형태의 데이터
  • 비정형 데이터 : 구조가 일정하지 않은 데이터로서 텍스트, 영상, 이미지, 음성 등의 데이터

데이터 측정

  • 일정한 규칙에 따라서 사물 또는 현상에 숫자를 부여하는 행위로서 추상적 개념을 경험적으로 관찰 가능한 것으로 바꾸는 과정

데이터 속성

  • 측정을 통해서 대상의 특정 속성과 연관된 값을 데이터의 속성값이라고 정의함
  • 계량적 변수 : 정량 데이터, 수치로 측정할 수 있는 데이터 저장, 연속적인 모든 값을 가짐, 연속형 변수, 비율 및 등간 척도
  • 비계량적 변수 : 정성 데이터, 수치로 측정할 수 없는 데이터 저장, 정숫값만을 가짐, 이산형 변수, 명목, 서열 및 등간 척도

데이터 측정 척도

  • 명목 척도(범주형) : 측정대상이 어느 집단에 속하는지 분류. 예) 성별, 이메일 주소, 인터넷 계정, 옷 색깔 등
  • 서열 척도(순서형) : 측정대상이 서열관계를 갖는 척도. 예) 고객등급, 순위, 직급, 평점, 선호도 등
  • 등간 척도(상대적 크기) : 측정대상이 갖고 있는 속성의 양 측정. 또는 (구간 척도) 서열과 의미 있는 차이를 가지는 척도. 결과는 숫자로 표현. 예) 온도, 지능 지수 등
  • 비율 척도(절대영점 존재) : 절대적인 영점 존재, 두 측정값의 비율이 의미가 있음. 예) 몸무게, 매출액, 질량, 나이, 길이 등

데이터 변환

  • 데이터의 특정 변수를 정해진 법칙에 따라 바꿔주는 것

데이터 변환 방법

  • 표준화(변수변환) : 집단 간의 측정 변수들에 대한 값의 차이를 서로 비교할 때 용이. 표준 정규 분포 등을 이용
  • 총계(개수 축소) : 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터 변환
  • 평활(범주화) : 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 기법(구간화, 군집화 등)
  • 비정형 데이터 변환 : 가능한 정형 데이터로 변환하여 분석, 텍스트의 경우 단어들의 빈도 표현

데이터 비식별화

  • 개인을 식별할 수 있는 잠재성을 가진 데이터를 식별할 수 없거나 식별하기 어려운 데이터로 가공하는 일련의 과정
  • 절차 : 사전검토 → 비식별조치 → 적절성 평가 → 사후관리

데이터 비식별화 방법

  • 가명처리, 총계처리, 데이터값 제거, 범주화, 데이터 마스킹

데이터 품질

  • 데이터 분석의 목적을 달성하고 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 하는 성질

데이터 품질 검증 절차

  • 데이터 품질 : 데이터 정확성, 완전성, 적시성, 일관성
  • 데이터 무결성 : 개체, 참조, 속성, 키, 도메인, 사용자 정의 무결성
  • 데이터 비식별화 : 가명 처리, 총계처리, 데이터값 제거, 범주화, 데이터 마스킹

데이터 품질검증 및 진단계획 수립 절차

  • 프로젝트 정의 → 조직 정의 및 편성 → 품질진단 절차 정의 → 세부 시행계획 확정 → 품질기준 및 진단대상 정의

데이터 품질관리

  • 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 유용성 있는 데이터를 확보하고 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동. 분석결과의 신뢰성 확보를 위해 중요

데이터 품질관리 모형의 3가지 관점

  • 미시적 관점 : 데이터 품질관리의 요소 확인. 요소별 데이터 품질 향상 방안 도출
  • 거시적 관점 : 전사적 조직 측면에서 데이터 관리의 성숙도 단계 정의
  • 부가가치적 관점 : 데이터 품질관리의 비용, 효과, 위험 모형 개발

데이터 품질검증 결과 보고서 주요 내용

  • 품질기준에 따른 테스트 결과, 수집 데이터 오류 및 수정 방안, 데이터 변경 및 보완 등의 데이터 품질개선 방안

데이터 품질검증 자동화 도구

  • 진단 대상 데이터베이스 관리, 테이블 관리, 진단 유형 관리, 품질진단, 진단 모니터링, 진단 결과관리, 오류원인 관리, 보고서 작성

빅데이터 품질관리 시스템 운영 및 관리 기능

  • 장애관리, 용량관리, 성능관리, 보안관리, 사용자 지원 서비스 제공 등

데이터 적재

  • 수집된 데이터를 저장소에 적재하기 위한 작업, 데이터 필터링, 유형변환, 정제 등의 기술 활용

데이터 전처리

  • 데이터 필터링 : 데이터 분석 목적에 맞는 데이터 추출, 비정형 데이터의 경우 데이터 오류나 중복 제거, 저품질 데이터 경우 품질개선
  • 데이터 유형 변환 : 데이터 분석이 용이한 형태 또는 분석 목적에 맞는 데이터로 변환
  • 데이터 정제 : 데이터 결측치, 노이즈, 이상값 식별 및 처리

데이터 후처리

  • 데이터 변환 : 수집 데이터를 일관성 있는 형식으로 변환
  • 데이터 통합 : 연관성 있는 데이터 결합, 데이터 단위 일치
  • 데이터 축소 : 불필요한 데이터 축소, 분석시간 단축 등 분석의 효율성 제고

데이터 저장 시스템 계획 수립 시 고려사항

  • 시스템 구축 : 데이터(양, 유형, 크기, 저장 방식, 기간 등), 디스크 용량, 클라우드 서비스 등
  • 사전 계획 수립 : 안정성, 신뢰성, 접근성, 관리자, 사용자, 세부 계획 수립(시스템 도입, 구축 일정, 연계방안, 검증 및 운영 방안 등)

데이터 저장 시스템 점검 리스트

  • 저장 시스템 및 환경설정, 구축 일정 및 역할, 데이터 수집 및 처리 시스템 연계 방안, 시스템 검증 및 운영 방안
  • 정형 데이터 : RDB
  • 반정형 데이터 : RDB 또는 NoSQL
  • 비정형 데이터 : NoSQL 또는 HDFS

데이터 저장 시스템 기능성 점검 항목

  • 데이터 모델, 확장성, 트랜잭션의 일관성, 질의 지원, 접근성 등

데이터 저장 방법

  • 분산 파일 시스템, 데이터베이스, NoSQL, MongoDB 등

하드웨어 구성 방법

  • 분산 컴퓨팅(Grid, GPGPU, FPGA 등), 병렬 컴퓨팅, 클라우드 컴퓨팅(SaaS, IaaS, PaaS) 등

소프트웨어 환경

  • 멀티 프로세스, 멀티 스레드, 아파치 하둡, HDFS 이용, MapReduce, YARN, Spark, RDD 등

데이터 저장 시스템 선정 결과 보고서 주요 내용

  • 저장 기술의 기능성, 분석 방식 및 환경, 데이터 유형, 기존 시스템 연계 방법, 최종 검토결과 등

데이터 거버넌스(Data Governance)

  • 데이터에 대한 표준화된 관리 체계를 수립하고 이를 운영하기 위한 프레임워크 및 저장소를 구축하는 것
profile
가치를 만드는 데이터 분석가

0개의 댓글