빅데이터 분석기사 필기 정리

Larry·2026년 3월 7일

1. 빅데이터의 이해

• 데이터의 구분

정량적 데이터 : 주로 숫자로 이루어진 데이터
정성적 데이터 : 문자와 같은 텍스트로 구성되며 함축적 의미

• 데이터의 유형

정형 : 테이블 구조 (DB), RDB, CSV, 스프레드시트
반정형 : 웹로그, 알람, XML, HTML, JSON, RSS
비정형 : 이미지, 오디오, 문자, NoSQL


• 데이터 기반 지식 구분

  • 암묵지
    • 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않은 지식
    • 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
  • 형식지
    • 명시적으로 알 수 있는 형태, 형식을 갖추어 표현되고 공유가 가능한 지식
    • 전달과 공유가 용이함

• DIKW 피라미드

  • Data
    • 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
  • Infotmation
    • 데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것
  • Knowledge
    • 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것
  • Wisdom
    • 지식의 축적과 아이디어가 결합된 창의적인 산물

• 빅데이터의 특징

3V : Volume(규모), Variety(유형, 다양성), Velocity(속도)
5V : Value(가치), Veracity(품질)

• 빅데이터의 가치

경제적 자산, 불확실성 제거, 리스크 감소, 타분야 융합, 스마트 경쟁력

• 빅데이터의 가치 측정의 어려움

데이터 활용 방식, 가치 창출 방식, 분석 기술 발전, 데이터 수집 원가

• 빅데이터의 본질적인 변화

  1. 사전처리 -> 사후처리
  2. 표본조사 -> 전수조사
  3. 질 -> 양
  4. 인과관계 -> 상관관계

• 빅데이터 활용을 위한 3요소

  1. 인력 : 데이터사이언티스트
  2. 자원 : 빅데이터
  3. 기술 : 빅데이터플랫폼, AI

• 분석조직의 구조

  1. 집중구조(전담조직구성)
  2. 분산구조(분석인력들을 현업부서로 직접배치)
  3. 기능구조(별도의 조직이 없고, 해당 부서에서 수행)

• 데이터 사이언티스트 요구역량

  • Hard Skill : 이론적 지식, 분석기술 숙련(이과적 지식)
  • Soft Skill : 통찰력, 설득력 있는 전달, 협업 능력(문과적 지식)

• 데이터베이스 특징

공용 데이터, 통합 데이터, 저장된 데이터, 변화되는 데이터(공통저변)

• 데이터웨어하우스(DW) 특징

특징 : 주제지향성, 통합성, 시계열성, 비휘발성
구성요소 : 데이터모델, ETL(Extract, Transform, Load), ODS, DW메타데이터, OLAP, 데이터마이닝, 분석도구, 경영기반솔루션

  • ETL
    • 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터웨어하우스에 적재
  • ODS
    • DBMS 시스템에서 추출한 데이터를 통합적으로 관리
  • 데이터 마이닝
    • 대용량 데이터로부터 인사이트를 추출

• 데이터 산업의 진화순서

처리 -> 통합 -> 분석 -> 연결 -> 권리

• 인공지능 경쟁력 3요소

알고리즘, GPU, 풍부한 데이터


2. 데이터 분석 계획

• 분석의 기획

  • 하향식 접근법(Top-Down)
    • 비즈니스 문제 -> 분석 과제 도출
    • 전략중심, 문제 중심 접근
  • 상향식 접근법(Bottom-Up)
    • 데이터 분석 -> 인사이트 발견
    • 데이터 중심 접근
  • 디자인 사고(Design Thinking)
    • 사용자 문제 해결 중심 분석
  • 데이터 분석 거버넌스 구성요소
    • 조직, 운영 프로세스, 분석 인프라, 데이터 거버넌스, 분석교육

  • KDD 분석방법론
    • 통계적 패턴이나 지식을 찾기 위해 정리한 데이터
  • CRISP-DM 분석방법론
    • 유럽연합의 ESPRIT에서 시작, 주요 5개 업체들이 주도

  • SEMMA 분석방법론
    • SAS사의 주도로 만들어진 기술중심, 통계중심의 방법론
    • 추출 -> 탐색 -> 수정-> 모델링 -> 평가

  • 데이터 거버넌스

    • 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직과 책임 등 표준화된 관리 체계 수립
    • 데이터의 가용성, 유용성, 통합성, 보안성을 확보

      마스터 데이터 : 마스터 파일을 형성하는 데이터
      메타 데이터 : 다른 데이터를 설명하기 위해 사용되는 데이터
      데이터 사전 : 자료의 이름, 표현방식, 의미, 사용방식 등을 저장

  • 데이터 분석 성숙도

단계설명
Descriptive무엇이 일어났는가
Diagnostic왜 발생했는가
Predictive미래 예측
Prescriptive최적 의사결정
  • 데이터 처리 프로세스

  • 사분면 분석


3 데이터 수집 및 저장 계획

profile
Be yourself, no matter what they say

0개의 댓글