[빅데이터 분석기사 필기] 제1과목. 빅데이터 분석 기획

Bob Park·2022년 9월 24일

2022 빅데이터분석기사 필기 한권으로 끝내기 Kdata big data 빅데이터 분석 기획 빅데이터 분석기사 요약노트 필기시험

[자격증] 빅데이터 분석기사

목록 보기

3/8

이번 글은

『2022 빅데이터분석기사 필기 한권으로 끝내기』(정혜정, 장희선, 시대고시기획)에서 제공되는 합격 알고리즘 노트의 내용을 중심으로 작성하였다.
문제풀이, 세부 내용 학습 중, 중요하다고 생각되는 내용을 추가 기입하였다.

제1장. 빅데이터의 이해

빅데이터(Big Data)

기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 데이터 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술(빅데이터 분석 및 시각화 기술도 포함한 개념으로 이해)

빅데이터의 주요 특징(V6?)

Volume(규모), Variety(다양성), Velocity(처리속도), Value(가치), Veracity(정확성), Validity(유효성), Volatility(휘발성)

빅데이터의 유형

정형(Structured) : 정해진 규칙에 맞게 저장된 데이터, 구조화되어 있음

반정형(Semi-structured) : 어의적 요소(단어, 말)를 분리시키고 태그나 다른 마커를 포함

비정형(Unstructured) : 데이터의 구조와 형태가 데이터마다 다르고 정형화되지 않음

빅데이터의 가치

사회경제적 가치, 비즈니스 모델 혁신, 비용 절감, 수익 증대, 사회적 비용 감소(의료 및 보건 분야 등), 산업 생산성 및 효율성 향상

빅데이터 산업

인프라(단말, 장비, 소프트웨어 공급자) 및 서비스(빅데이터 서비스 공급업자, 유·무선 통신 서비스 업자)

빅데이터 비즈니스 모델

빅데이터 서비스 제공자가 단말, 장비, 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법

빅데이터 조직

시스템 엔지니어, 데이터베이스 엔지니어, 소프트웨어 엔지니어 등으로 데이터 분석팀 및 시스템 운영팀 구성

빅데이터 분석 직무

NCS의 정의 : 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형, 비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

빅데이터 요소 기술

데이터 수집, 저장, 공유, 처리, 분석 및 시각화

빅데이터 플랫폼

다양한 데이터 소스에서 수집된 데이터를 처리하고 분석해서 지식을 추출하고 지능화된 서비스를 제공하는 데 필요한 IT환경

데이터베이스(Database)

여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합(Stored, Intergrated, Shared)

데이터베이스 관리 시스템(DBMS; Database Management System)

다수의 컴퓨터 사용자들이 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어

인공지능(AI; Aritificial Intelligence)

컴퓨터를 사용하여 인간의 지능을 모델링하는 기술

핵심요소 : 하드웨어, 소프트웨어, 프로그래밍 언어, 모델 형태, 응용 분야

데이터 마이닝(Data Mining)

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법으로 분류, 군집화, 연관성 분석, 연속성 분석 및 예측 분야에 활용

머신러닝(기계학습, Machine Learning)

인공지능의 한 분야로서 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술 개발

지도 학습 : 입력과 출력을 연관시키는 관계 학습(분류, 회귀 분석)

비지도 학습 : 출력값 없이 입력값만으로 스스로 규칙성을 찾아냄(클러스터링, 차원축소)

강화 학습 : 보상을 이용하여 학습(실시간 의사결정, 인공지능 게임)

딥러닝(Deep Learning)

머신러닝과 신경망의 한 분야로서 여러 개의 은닉층을 가진 심층 신경망을 기반으로 하는 학습 방법

개인정보

이름, 주민등록번호에서 DNA에 이르기까지 그것을 이용해 특정 개인을 식별할 가능성을 내포한 데이터

관련 법령 : 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 위치정보의 보호 및 이용 등에 관한 법률, 정보통신 기반 보호법, 국가정보화 기본법, 전자정부법, 개인정보보호법 등

개인정보 활용을 위한 비식별조치 가이드라인

비식별 조치 : 데이터 내에 포함된 개인정보에 대한 활용 및 비식별 조치 후 활용 가능 여부에 대한 부분이 국내 관계부처에서 제정한 ‘개인정보 비식별조치 가이드라인’을 준수하고 있는지 확인

가이드라인 : 공공정보 개방·공유에 따른 개인정보보호지침, 개인정보 비식별화에 대한 적정성 자율평가 안내서, 빅데이터 개인정보보호 가이드라인, 빅데이터 활용을 위한 개인정보 비식별화 기술 활용 안내서 준수

제2장. 데이터 분석 계획

작업분할구조도(WBS; Work Breakdown Structure)

프로젝트 관리와 시스템 공학 분야에서 프로젝트의 더 작은 요소로 분해시킨 Deliverable 지향 분업 구조

프로젝트 팀이 프로젝트 목표를 달성하고 필요한 인도물을 산출하기 위해 실행하는 작업을 인도물 중심의 계층 구조로 세분해 놓은 것

작성 절차 : 프로젝트 소요 비용 배분 → 프로젝트 WBS 수립 → 프로젝트 업무분장 계획 및 배분

빅데이터 분석 프로세스

5단계(NCS) : 도메인 이슈 도출 → 분석목표 수립 → 프로젝트 계획 수립 → 보유 데이터자산 확인 → 빅데이터 분석결과 시각화

6단계 : 문제인식 → 관련 연구조사 → 모형화(변수선정) → 자료수집(변수측정) → 자료분석 → 분석결과 제시

빅데이터 분석 5단계 절차

데이터 수집 → 정제 → 적재 → 분석 → 시각화

빅데이터 분석을 위한 조직의 성숙도

도입 → 활용 → 확산 → 최적화

데이터 수집 시 고려사항

분석대상 비즈니스 이해, 데이터 수집 대상 및 유형, 데이터 위치, 수집 방법, 획득 비용 등

데이터 분석 관련 문서화

빅데이터 요건 정의서, 분석목표정의서, WBS, 데이터품질보고서, 데이터 분석 보고서 등

빅데이터 분석목표정의서

데이터 원천 파악(데이터 정보, 입수 난이도), 분석접근 방안, 데이터 분석모형 적용 가능성 판단, 성과평가 기준(정성 및 정량적 평가기준) 마련 등

빅데이터 주요 분석 기술

회귀, 분류, 연관성, 머신러닝, 감정, 소셜 네트워크, 유전 알고리즘 등

빅데이터 분석 도구

Hadoop, MapReduce, R, Presto, BigQuery, Summingbrid, Esper 등

빅데이터 처리 시스템

데이터 처리를 통하여 유용한 정보를 찾고 데이터가 포함하고 있는 지식을 찾아내며, 이러한 정보를 찾기 위한 데이터 가공 및 분석과정 전반을 지원하는 시스템

주요 고려사항 : 데이터 양, 데이터 발생속도, 데이터 형태, 새로운 처리 기술 등

요구사항 : 결함허용, 저비용, 기존 시스템 연계성 등

데이터 확보 계획 수립 절차

목표 정의 → 요구사항 도출 → 예산안 수립 → 계획 수립

WBS(Work Breakdown Structure, 작업분할구조도) 작성 절차

데이터 분석과제 정의 → 데이터 준비 및 탐색 → 데이터분석 모델링 및 검증 → 산출물 정리

데이터 적절성 점검 항목

데이터 누락, 소스 데이터와의 비교, 데이터 정확성, 보안 점검, 저작권 점검, 대량 트래픽 발생 점검 등

데이터 저장 시스템 설계를 위한 요구사항

요구사항 수집, 요구사항 분석(데이터 및 인터페이스 등), 요구사항 명세(데이터 요구사항 명세서 작성), 요구사항 검증 등

제3장. 데이터 수집 및 저장 계획

데이터 수집 시 고려사항

데이터 분석의 목적, 데이터 수집 가능성, 데이터 보안, 데이터 정확성, 수집 난이도 및 비용 고려

데이터 위치

내부 데이터 : 대부분 정형 데이터로 존재, 조직 내부의 데이터 담당자와 수집 주기 및 방법 협의, 수집 난이도가 낮음

외부 데이터 : 대부분 반정형 및 비정형 형태로 존재, 특정 기관의 담당자와 협의, 전문업체를 통해 수집, 수집 인터페이스 협의, 수집 난이도가 높음

데이터 수집 절차

데이터 유형 파악 → 수집기술 검토 → 수집 솔루션 확인 → 하드웨어 구축 → 실행환경 검토

데이터 수집 기술

정형 데이터 : 대용량 데이터 전송 솔루션 이용(Sqoop, Hiho 등)

반정형 데이터(로그 데이터 등) : 로그 파일 수집기 이용(Flume, Scribe, Chukwa 등)

비정형 데이터 : 크롤링, Open API, RSS 이용

데이터 수집 방법

Crawling : 외부 데이터의 HTTP 수집 방법, SNS·뉴스·웹 문서 정보 수집

Open API : 웹을 운영하는 주체가 정보·데이터를 제공하기 위해 개발자와 사용자에게 공개하는 수집 기술

FTP : 인터넷 서버로부터 각종 파일 송·수신

RSS : XML 기반 콘텐츠 배급 프로토콜을 이용한 수집

Streaming : 인터넷 음성, 오디오, 비디오 데이터를 실시간으로 수집

Log Aggregator : 웹서버 로그, 웹 로그, 트랜잭션 로그, DB 로그 등 각종 로그 데이터 수집. Chukwa, Flume, Scribe 등

RDB Aggregator : 관계형 DB에서 정형 데이터 수집, HDFS, HBase 등의 NoSQL에 저장. Sqoop, Direct JDBC / ODBC 등

웹에서의 데이터 수집 방법 : HTML, XML, JSON 등 이용

Web Crawling : 자동화 Bot인 Web Crawler가 정해진 규칙에 따라 복수의 웹페이지 자료수집

Web Scraping : 웹사이트의 원하는 부분에 위치한 정보를 자동 추출 및 수집

Web Mining : 인터넷을 이용한 웹서비스의 다양한 패턴을 발견하기 위해 사용되는 기술

스크립트 언어를 이용한 데이터 수집

Python, Ruby 등 이용

데이터 수집 시 관련 내규 검토

개인정보보호 업무처리 지침서, 보안 약점 및 개인정보 사전 제거, 보안 가이드 검토

데이터 적절성 검증

데이터 누락 및 결측(데이터 재수집), 데이터 정확성, 개인정보 유무 파악, 데이터 저작권 및 법률적 문제 검토

빅데이터 시스템 운영 업무

시스템 구성 및 변경 관리, 운영 상태 관리, 성능 관리, 보안 관리

데이터 수집 불가의 원인 및 대처 방안

시스템 오류 : 시스템 구성 및 프로그램 수정, 네트워크 확인

보안 : 암호화된 데이터의 경우 인증서 이용, 폐쇄망 데이터의 경우 사전 관리자 승인

저장 용량 : 시스템 용량 산정 재검토, 저장 공간 확보

데이터 수집 보고서의 주요 내용

데이터 유형, 데이터 위치, 데이터 저장 시스템, 수집 기술, 수집 비용

데이터 유형

정형 데이터 : 정형화된 스키마 구조를 갖고 있으며 스프레드 시트, csv 형태의 데이터

반정형 데이터 : 내부에 데이터 구조에 대한 메타 정보를 갖고 있으며 HTML, XML, JSON, 로그 형태의 데이터

비정형 데이터 : 구조가 일정하지 않은 데이터로서 텍스트, 영상, 이미지, 음성 등의 데이터

데이터 측정

일정한 규칙에 따라서 사물 또는 현상에 숫자를 부여하는 행위로서 추상적 개념을 경험적으로 관찰 가능한 것으로 바꾸는 과정

데이터 속성

측정을 통해서 대상의 특정 속성과 연관된 값을 데이터의 속성값이라고 정의함

계량적 변수 : 정량 데이터, 수치로 측정할 수 있는 데이터 저장, 연속적인 모든 값을 가짐, 연속형 변수, 비율 및 등간 척도

비계량적 변수 : 정성 데이터, 수치로 측정할 수 없는 데이터 저장, 정숫값만을 가짐, 이산형 변수, 명목, 서열 및 등간 척도

데이터 측정 척도

명목 척도(범주형) : 측정대상이 어느 집단에 속하는지 분류. 예) 성별, 이메일 주소, 인터넷 계정, 옷 색깔 등

서열 척도(순서형) : 측정대상이 서열관계를 갖는 척도. 예) 고객등급, 순위, 직급, 평점, 선호도 등

등간 척도(상대적 크기) : 측정대상이 갖고 있는 속성의 양 측정. 또는 (구간 척도) 서열과 의미 있는 차이를 가지는 척도. 결과는 숫자로 표현. 예) 온도, 지능 지수 등

비율 척도(절대영점 존재) : 절대적인 영점 존재, 두 측정값의 비율이 의미가 있음. 예) 몸무게, 매출액, 질량, 나이, 길이 등

데이터 변환

데이터의 특정 변수를 정해진 법칙에 따라 바꿔주는 것

데이터 변환 방법

표준화(변수변환) : 집단 간의 측정 변수들에 대한 값의 차이를 서로 비교할 때 용이. 표준 정규 분포 등을 이용

총계(개수 축소) : 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터 변환

평활(범주화) : 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 기법(구간화, 군집화 등)

비정형 데이터 변환 : 가능한 정형 데이터로 변환하여 분석, 텍스트의 경우 단어들의 빈도 표현

데이터 비식별화

개인을 식별할 수 있는 잠재성을 가진 데이터를 식별할 수 없거나 식별하기 어려운 데이터로 가공하는 일련의 과정

절차 : 사전검토 → 비식별조치 → 적절성 평가 → 사후관리

데이터 비식별화 방법

가명처리, 총계처리, 데이터값 제거, 범주화, 데이터 마스킹

데이터 품질

데이터 분석의 목적을 달성하고 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 하는 성질

데이터 품질 검증 절차

데이터 품질 : 데이터 정확성, 완전성, 적시성, 일관성

데이터 무결성 : 개체, 참조, 속성, 키, 도메인, 사용자 정의 무결성

데이터 비식별화 : 가명 처리, 총계처리, 데이터값 제거, 범주화, 데이터 마스킹

데이터 품질검증 및 진단계획 수립 절차

프로젝트 정의 → 조직 정의 및 편성 → 품질진단 절차 정의 → 세부 시행계획 확정 → 품질기준 및 진단대상 정의

데이터 품질관리

비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 유용성 있는 데이터를 확보하고 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동. 분석결과의 신뢰성 확보를 위해 중요

데이터 품질관리 모형의 3가지 관점

미시적 관점 : 데이터 품질관리의 요소 확인. 요소별 데이터 품질 향상 방안 도출

거시적 관점 : 전사적 조직 측면에서 데이터 관리의 성숙도 단계 정의

부가가치적 관점 : 데이터 품질관리의 비용, 효과, 위험 모형 개발

데이터 품질검증 결과 보고서 주요 내용

품질기준에 따른 테스트 결과, 수집 데이터 오류 및 수정 방안, 데이터 변경 및 보완 등의 데이터 품질개선 방안

데이터 품질검증 자동화 도구

진단 대상 데이터베이스 관리, 테이블 관리, 진단 유형 관리, 품질진단, 진단 모니터링, 진단 결과관리, 오류원인 관리, 보고서 작성

빅데이터 품질관리 시스템 운영 및 관리 기능

장애관리, 용량관리, 성능관리, 보안관리, 사용자 지원 서비스 제공 등

데이터 적재

수집된 데이터를 저장소에 적재하기 위한 작업, 데이터 필터링, 유형변환, 정제 등의 기술 활용

데이터 전처리

데이터 필터링 : 데이터 분석 목적에 맞는 데이터 추출, 비정형 데이터의 경우 데이터 오류나 중복 제거, 저품질 데이터 경우 품질개선

데이터 유형 변환 : 데이터 분석이 용이한 형태 또는 분석 목적에 맞는 데이터로 변환

데이터 정제 : 데이터 결측치, 노이즈, 이상값 식별 및 처리

데이터 후처리

데이터 변환 : 수집 데이터를 일관성 있는 형식으로 변환

데이터 통합 : 연관성 있는 데이터 결합, 데이터 단위 일치

데이터 축소 : 불필요한 데이터 축소, 분석시간 단축 등 분석의 효율성 제고

데이터 저장 시스템 계획 수립 시 고려사항

시스템 구축 : 데이터(양, 유형, 크기, 저장 방식, 기간 등), 디스크 용량, 클라우드 서비스 등

사전 계획 수립 : 안정성, 신뢰성, 접근성, 관리자, 사용자, 세부 계획 수립(시스템 도입, 구축 일정, 연계방안, 검증 및 운영 방안 등)

데이터 저장 시스템 점검 리스트

저장 시스템 및 환경설정, 구축 일정 및 역할, 데이터 수집 및 처리 시스템 연계 방안, 시스템 검증 및 운영 방안

정형 데이터 : RDB

반정형 데이터 : RDB 또는 NoSQL

비정형 데이터 : NoSQL 또는 HDFS